Inteligência Artificial

Criadores do aprendizado por reforço, usado em IAs, ganham "Nobel da computação"

Pesquisadores desenvolveram técnica que permitiu avanços como AlphaGo e ChatGPT

André Lopes
André Lopes

Repórter

Publicado em 5 de março de 2025 às 10h05.

Última atualização em 5 de março de 2025 às 10h05.

Os cientistas Andrew Barto e Richard Sutton foram anunciados, nesta quarta-feira, 5, como vencedores do Prêmio Turing, considerado o "Nobel da computação". A premiação, concedida pela Association for Computing Machinery (ACM), reconheceu os pesquisadores pelo desenvolvimento do aprendizado por reforço, técnica que permitiu avanços em inteligência artificial (IA), como AlphaGo e ChatGPT. A dupla dividirá o prêmio de US$ 1 milhão.

O conceito surgiu a partir de estudos de Barto, na Universidade de Massachusetts Amherst, na década de 1970, e foi aprimorado com a chegada de Sutton, em 1978. Inspirado no comportamento de neurônios, o método propõe que máquinas aprendam por meio de tentativa e erro, associando ações bem-sucedidas a uma espécie de "recompensa" digital.

Andrew Barto e Richard Sutton: pesquisadores desenvolveram o aprendizado por reforço, uma técnica vital para chatbots como o ChatGPT

Ao longo dos anos, a técnica permaneceu em grande parte restrita ao meio acadêmico. Isso mudou em 2016, quando a AlphaGo, da DeepMind (empresa do Google), derrotou o campeão mundial de Go, Lee Sedol, surpreendendo especialistas que acreditavam que esse feito levaria mais uma década. A IA utilizou aprendizado por reforço para jogar milhões de partidas contra si mesma, refinando suas estratégias.

O impacto do método se estendeu para o desenvolvimento de chatbots. O ChatGPT, da OpenAI, aprimorou suas respostas por meio do reforço a partir do feedback humano (reinforcement learning from human feedback, ou RLHF). A empresa recrutou pessoas para interagir com o modelo, corrigindo erros e ajustando respostas, permitindo que a IA aprendesse com avaliações humanas.

O futuro do aprendizado por reforço

O aprendizado por reforço ainda enfrenta desafios, como sua aplicação fora de contextos estruturados, como jogos. Em cenários mais complexos, como robótica, especialistas buscam formas de ensinar máquinas a interagir com o mundo físico de maneira mais eficiente.

Empresas como OpenAI e DeepSeek exploram novas abordagens, incluindo aprendizado autônomo, no qual chatbots aprendem resolvendo problemas matemáticos sozinhos. O OpenAI o1 e o DeepSeek R1 são exemplos desse avanço, que busca aproximar a IA do raciocínio humano.

Barto e Sutton acreditam que o próximo passo será levar o aprendizado por reforço para agentes físicos. "Aprender a controlar um corpo por reforço é algo muito natural", afirmou Barto. A expectativa é que, no futuro, robôs aprendam a se movimentar e tomar decisões com base na experiência, como humanos e animais fazem.

Acompanhe tudo sobre:Inteligência artificial

Mais de Inteligência Artificial

Microsoft leva Copilot ao Mac, mas versão para Apple ainda tem limitações

Waymo registra 200 mil corridas pagas por semana

Previsão do CEO da Nvidia reforça que infraestrutura de IA está no começo

Fabricante de chips TSMC planeja investimento de US$ 100 bilhões em fábricas nos EUA