Redação Exame
Publicado em 19 de abril de 2025 às 09h46.
A OpenAI lançou recentemente dois novos modelos de inteligência artificial, o o3 e o o4-mini, que, apesar de avanços em tarefas como programação e matemática, demonstraram um aumento expressivo em um dos maiores desafios da área: as alucinações — quando o sistema gera informações falsas ou inventadas.
Historicamente, os modelos vinham apresentando pequenas melhorias nesse quesito, com cada nova geração alucinando menos que a anterior. Mas a tendência foi quebrada com os novos lançamentos, segundo dados do site TechCrunch.
Segundo testes internos da OpenAI, os modelos o3 e o4-mini — ambos da nova linha de modelos de raciocínio — cometem mais erros desse tipo do que os modelos anteriores, como o o1, o o1-mini e o o3-mini. Até mesmo modelos não voltados especificamente para raciocínio, como o GPT-4o, apresentaram resultados melhores.
A empresa reconhece que ainda não entende completamente o motivo desse aumento. Em relatório técnico, a OpenAI afirma que “mais pesquisas são necessárias” para compreender por que os modelos de raciocínio mais avançados estão alucinando mais.
Embora esses novos sistemas façam mais afirmações corretas em tarefas complexas, como resolver problemas matemáticos, eles também geram mais respostas incorretas. No benchmark interno PersonQA — que avalia o conhecimento dos modelos sobre pessoas —, o o3 alucinou em 33% das perguntas. Os modelos anteriores ficaram em 16% (o1) e 14,8% (o3-mini). O o4-mini teve o pior desempenho, com alucinações em 48% das respostas.
Testes independentes feitos pela organização de pesquisa Transluce também mostraram falhas preocupantes. Em um dos casos observados, o modelo o3 afirmou que executou um código em um MacBook Pro de 2021 “fora do ChatGPT” e usou os resultados na resposta — algo que o modelo, na prática, não tem capacidade de fazer.
Pesquisadores da Transluce sugerem que o tipo de reforço de aprendizado usado nos modelos da linha “o” pode estar agravando problemas que geralmente são mitigados com técnicas de pós-treinamento. Para eles, isso pode comprometer a utilidade desses modelos em aplicações que exigem precisão.
Outros relatos apontam que o modelo o3 também inventa links para sites que não existem, um problema recorrente em tarefas de programação testadas por equipes que já utilizam o sistema no dia a dia.
Embora as alucinações possam, em alguns casos, estimular criatividade e gerar ideias interessantes, elas dificultam a adoção desses modelos por setores que exigem confiabilidade, como escritórios de advocacia ou serviços de saúde.
Uma das alternativas consideradas promissoras para reduzir esse tipo de erro é integrar ferramentas de busca na internet. Modelos com essa funcionalidade, como o GPT-4o com acesso à web, atingem até 90% de precisão em benchmarks como o SimpleQA.
A OpenAI afirmou que está investindo em pesquisas para melhorar a precisão de todos os seus modelos e que encontrar soluções para o problema das alucinações é uma prioridade contínua.
Nos últimos meses, a indústria de IA como um todo tem apostado fortemente em modelos de raciocínio, já que eles oferecem melhor desempenho em várias tarefas com menor demanda de recursos de computação. Ainda assim, esse novo caminho pode estar gerando um efeito colateral inesperado: mais respostas falsas.