Inteligência Artificial

Novos modelos de IA da OpenAI têm mais 'alucinações' que os anteriores; entenda

Modelo o4-mini apresentou taxa de alucinação de 48% em testes internos, o pior resultado entre as versões lançadas até agora pela empresa

Da Redação
Da Redação

Redação Exame

Publicado em 19 de abril de 2025 às 09h46.

Tudo sobreChatGPT
Saiba mais

A OpenAI lançou recentemente dois novos modelos de inteligência artificial, o o3 e o o4-mini, que, apesar de avanços em tarefas como programação e matemática, demonstraram um aumento expressivo em um dos maiores desafios da área: as alucinações — quando o sistema gera informações falsas ou inventadas.

Historicamente, os modelos vinham apresentando pequenas melhorias nesse quesito, com cada nova geração alucinando menos que a anterior. Mas a tendência foi quebrada com os novos lançamentos, segundo dados do site TechCrunch.

Segundo testes internos da OpenAI, os modelos o3 e o4-mini — ambos da nova linha de modelos de raciocínio — cometem mais erros desse tipo do que os modelos anteriores, como o o1, o o1-mini e o o3-mini. Até mesmo modelos não voltados especificamente para raciocínio, como o GPT-4o, apresentaram resultados melhores.

A empresa reconhece que ainda não entende completamente o motivo desse aumento. Em relatório técnico, a OpenAI afirma que “mais pesquisas são necessárias” para compreender por que os modelos de raciocínio mais avançados estão alucinando mais.

Embora esses novos sistemas façam mais afirmações corretas em tarefas complexas, como resolver problemas matemáticos, eles também geram mais respostas incorretas. No benchmark interno PersonQA — que avalia o conhecimento dos modelos sobre pessoas —, o o3 alucinou em 33% das perguntas. Os modelos anteriores ficaram em 16% (o1) e 14,8% (o3-mini). O o4-mini teve o pior desempenho, com alucinações em 48% das respostas.

Testes independentes feitos pela organização de pesquisa Transluce também mostraram falhas preocupantes. Em um dos casos observados, o modelo o3 afirmou que executou um código em um MacBook Pro de 2021 “fora do ChatGPT” e usou os resultados na resposta — algo que o modelo, na prática, não tem capacidade de fazer.

Pesquisadores da Transluce sugerem que o tipo de reforço de aprendizado usado nos modelos da linha “o” pode estar agravando problemas que geralmente são mitigados com técnicas de pós-treinamento. Para eles, isso pode comprometer a utilidade desses modelos em aplicações que exigem precisão.

Outros relatos apontam que o modelo o3 também inventa links para sites que não existem, um problema recorrente em tarefas de programação testadas por equipes que já utilizam o sistema no dia a dia.

Embora as alucinações possam, em alguns casos, estimular criatividade e gerar ideias interessantes, elas dificultam a adoção desses modelos por setores que exigem confiabilidade, como escritórios de advocacia ou serviços de saúde.

Uma das alternativas consideradas promissoras para reduzir esse tipo de erro é integrar ferramentas de busca na internet. Modelos com essa funcionalidade, como o GPT-4o com acesso à web, atingem até 90% de precisão em benchmarks como o SimpleQA.

A OpenAI afirmou que está investindo em pesquisas para melhorar a precisão de todos os seus modelos e que encontrar soluções para o problema das alucinações é uma prioridade contínua.

Nos últimos meses, a indústria de IA como um todo tem apostado fortemente em modelos de raciocínio, já que eles oferecem melhor desempenho em várias tarefas com menor demanda de recursos de computação. Ainda assim, esse novo caminho pode estar gerando um efeito colateral inesperado: mais respostas falsas.

Acompanhe tudo sobre:OpenAIChatGPTInteligência artificial

Mais de Inteligência Artificial

Autenticidade em crise: a inteligência artificial vai roubar a nossa identidade?

Como funciona a inteligência artificial do Google que quer 'traduzir' o idioma dos golfinhos

Apple vai analisar dados nos dispositivos dos clientes para melhorar sua IA

'Efeito Ghibli': uma em cada dez pessoas no mundo usam o ChatGPT, diz Sam Altman