Início Ciência e tecnologia O Turing Award vai para os pioneiros da AI Andrew Barto e...

O Turing Award vai para os pioneiros da AI Andrew Barto e Richard Sutton

15
0

Em 1977, Andrew Barto, como pesquisador da Universidade de Massachusetts, Amherst, começou a explorar uma nova teoria que neurônios se comportaram como hedonistas. A idéia básica era que o cérebro humano fosse impulsionado por bilhões de células nervosas que estavam tentando maximizar o prazer e minimizar a dor.

Um ano depois, ele se juntou a outro jovem pesquisador, Richard Sutton. Juntos, eles trabalharam para explicar a inteligência humana usando esse conceito simples e a aplicaram à inteligência artificial. O resultado foi “aprendizado de reforço”, uma maneira de os sistemas de IA aprenderem com o equivalente digital de prazer e dor.

Na quarta -feira, a Associação de Máquinas de Computação, a maior sociedade mundial de profissionais de computação, anunciou que o Dr. Barto e o Dr. Sutton haviam ganho o prêmio Turing deste ano por seu trabalho sobre aprendizado de reforço. O prêmio Turing, que foi introduzido em 1966, é frequentemente chamado de Prêmio Nobel de Computação. Os dois cientistas compartilharão o prêmio de US $ 1 milhão que vem com o prêmio.

Na última década, o aprendizado de reforço desempenhou um papel vital no surgimento da inteligência artificial, incluindo tecnologias inovadoras, como Alphago do Google e o chatgpt do Openai. As técnicas que alimentaram esses sistemas estavam enraizadas no trabalho do Dr. Barto e do Dr. Sutton.

“Eles são os pioneiros indiscutíveis da aprendizagem de reforço”, disse Oren Etzioni, professor emérito de ciência da computação da Universidade de Washington e executivo -chefe fundador do Instituto Allen de Inteligência Artificial. “Eles geraram as principais idéias – e escreveram o livro sobre o assunto”.

O livro deles, “Aprendizagem de reforço: uma introdução”, publicado em 1998, continua sendo a exploração definitiva de uma idéia que muitos especialistas dizem que está apenas começando a realizar seu potencial.

Os psicólogos há muito estudam as maneiras pelas quais humanos e animais aprendem com suas experiências. Na década de 1940, o pioneiro cientista da computação britânico Alan Turing sugeriu que as máquinas pudessem aprender da mesma maneira.

Mas foi o Dr. Barto e o Dr. Sutton que começaram a explorar a matemática de como isso pode funcionar, construindo uma teoria que A. Harry Klopf, um cientista da computação que trabalha para o governo, havia proposto. O Dr. Barto construiu um laboratório no UMass Amherst dedicado à idéia, enquanto o Dr. Sutton fundou um tipo semelhante de laboratório na Universidade de Alberta, no Canadá.

“É uma ideia óbvia quando você está falando sobre humanos e animais”, disse o Dr. Sutton, que também é cientista de pesquisa da Keen Technologies, uma start-up de IA e membro do Alberta Machine Intelligence Institute, um dos três laboratórios nacionais da AI do Canadá. “Enquanto o revivemos, era sobre máquinas”.

Isso permaneceu uma busca acadêmica até a chegada do AlphaGo em 2016. A maioria dos especialistas acreditava que outros 10 anos passariam antes que alguém construísse um sistema de IA que pudesse vencer os melhores jogadores do mundo no jogo de Go.

Mas durante uma partida em Seul, Coréia do Sul, o Alphago venceu Lee Sedol, o melhor jogador da década passada. O truque era que o sistema havia jogado milhões de jogos contra si mesmo, aprendendo por tentativa e erro. Aprendeu quais movimentos trouxeram sucesso (prazer) e quais trouxeram fracasso (dor).

A equipe do Google que construiu o sistema foi liderada por David Silver, um pesquisador que estudou o aprendizado de reforço sob o Dr. Sutton na Universidade de Alberta.

Muitos especialistas ainda questionam se o aprendizado de reforço poderia funcionar fora dos jogos. Os ganhos do jogo são determinados por pontos, o que facilita a distinção entre o sucesso e o fracasso.

Mas o aprendizado de reforço também desempenhou um papel essencial nos chatbots on -line.

Antes do lançamento do ChatGPT no outono de 2022, o Openai contratou centenas de pessoas para usar uma versão inicial e fornecer sugestões precisas que poderiam aprimorar suas habilidades. Eles mostraram ao chatbot como responder a perguntas específicas, classificaram suas respostas e corrigiram seus erros. Ao analisar essas sugestões, o ChatGPT aprendeu a ser um chatbot melhor.

Os pesquisadores chamam isso de “aprendizado de reforço com o feedback humano” ou RLHF e é uma das principais razões pelas quais os chatbots de hoje respondem de maneiras surpreendentemente realistas.

(O New York Times processou o OpenAI e seu parceiro, Microsoft, por violação de direitos autorais de conteúdo de notícias relacionado aos sistemas de IA. OpenAI e Microsoft negaram essas reivindicações.)

Mais recentemente, empresas como o Openai e a start-up chinesa Deepseek desenvolveram uma forma de aprendizado de reforço que permite que os chatbots aprendam consigo mesmos-assim como o AlphaGo. Ao trabalhar em vários problemas de matemática, por exemplo, um chatbot pode aprender quais métodos levam à resposta certa e quais não.

Se repetir esse processo com um conjunto extremamente grande de problemas, o bot pode aprender a imitar a maneira como os humanos são a razão – pelo menos de certa forma. O resultado são os chamados sistemas de raciocínio, como o Open O1 ou o Deepseek, R1.

O Dr. Barto e o Dr. Sutton dizem que esses sistemas sugerem das maneiras pelas quais as máquinas aprenderão no futuro. Eventualmente, eles dizem que os robôs imbuídos da IA ​​aprenderão com tentativa e erro no mundo real, como os humanos e os animais.

“Aprender a controlar um corpo através do aprendizado de reforço – isso é uma coisa muito natural”, disse Barto.

Fonte