O homem para provar o quão idiota ainda é

DEep Down, Sam Altman e François Chollet compartilham o mesmo sonho. Eles querem construir modelos de IA que alcançam “inteligência geral artificial” ou AGI – atingindo ou excedendo as capacidades da mente humana. A diferença entre esses dois homens é que Altman sugeriu que sua empresa, Openai, praticamente construiu a tecnologia. Chollet, um cientista da computação francês e um dos céticos mais nítidos da indústria, tem disse Essa noção é “sapatos absolutamente palhaços”.
Quando conversei com ele no início deste ano, Chollet me disse que as empresas de IA têm sido “intelectualmente preguiçosas” ao sugerir que suas máquinas estão no caminho de um tipo de conhecimento supremo. Neste ponto, essas reivindicações são baseadas em grande parte na capacidade dos programas de passar testes específicos (como o LSAT, a biologia avançada de posicionamento e até mesmo um Exame introdutório de sommelier). Os chatbots podem ser impressionantes. Mas, no acerto de contas de Chollet, eles não são genuinamente inteligentes.
Chollet, como Altman e outros barões de tecnologia, prevê modelos de IA que podem resolver qualquer problema que se possa imaginar: doenças, mudanças climáticas, pobreza, viagens interestelares. Um bot não precisa ser remotamente “inteligente” para fazer o seu trabalho. Mas, para que a tecnologia cumpra até uma fração das aspirações da indústria – se tornar um pesquisador “semelhante a Einstein”, como Chollet me colocou – os modelos AIs devem ir além da imitação de tarefas básicas ou até mesmo montar relatórios de pesquisa complexos e exibir alguma ingenuidade.
Chollet não é apenas um crítico, nem é intransigente. Ele tem experiência substancial com o desenvolvimento da IA e criou um teste agora promotor para avaliar se as máquinas podem fazer esse tipo de pensamento. Durante anos, ele contribuiu com grandes pesquisas para o campo da aprendizagem profunda, inclusive no Google, onde trabalhou como engenheiro de software de 2015 até novembro passado; Ele quer que a IA generativa seja revolucionária, mas se preocupa que a indústria tenha se desviado. Em 2019, Chollet criou o corpus de abstração e raciocínio para inteligência geral artificial, ou Arc-Agi-um exame projetado para mostrar o abismo entre as respostas memorizadas dos modelos de IA e a “inteligência fluida” que as pessoas têm. Desenhando da ciência cognitiva, chollet descrito A inteligência como a capacidade de adquirir rapidamente habilidades e resolver problemas desconhecidos dos primeiros princípios, em vez de apenas memorizar quantidades enormes de dados de treinamento e informações regurgatórias. (No ano passado, ele lançou o prêmio ARC, uma competição para vencer sua referência com um fundo de prêmios de US $ 1 milhão.)
Você, um humano, provavelmente passaria neste exame. Mas, durante anos, os chatbots passaram um tempo miserável com isso. A maioria das pessoas, apesar de nunca ter encontrado Arc-agi antes, obtenha pontuações de aproximadamente 60 a 70 %. GPT-3, o programa que se tornou ChatGPT, o lendário bot de distorção da realidade, marcou um zero. Recentemente, os bots começaram a se atualizar.
How pode ser tão poderoso ferramentas falhar no teste tão espetacularmente por tanto tempo? É aqui que entra a definição de inteligência de Chollet. Para ele, um chatbot que analisou zilhões de perguntas no estilo SAT, resumos legais e linhas de código não é muito inteligente também preparado-para o SAT, um exame da escola, problemas avançados de codificação. Uma criança descobrindo problemas complicados de palavras depois de apenas aprender a multiplicar e dividir, enquanto isso, é inteligente.
O Arc-Agi é simples, mas exige um forte senso de percepção e, em certo sentido, julgamento. Consiste em uma série de grades incompletas em que o tomador deve colorir com base nas regras que deduzem de alguns exemplos; Pode -se, por exemplo, ver uma sequência de imagens e observar que um azulejo azul é sempre cercado por telhas laranja e, em seguida, complete a próxima foto de acordo. Não é tão diferente da tinta por números.
O teste há muito parece intratável para as principais empresas de IA. GPT-4, que abre vangloriaram -se Em 2023, possuía “recursos avançados de raciocínio”, não se saíram muito melhor do que o por cento zero ganho por seu antecessor. Um ano depois, GPT-4O, que a start-up comercializado Como exibir “texto, raciocínio e inteligência de codificação”, alcançou apenas 5 %. Gêmeos 1.5 e Claude 3.7, modelos principais do Google e Antrópico, alcançou 5 e 14 %, respectivamente. Esses modelos podem ter tido sorte em alguns quebra -cabeças, mas para Chollet não tinham demonstrado um pingo de raciocínio abstrato. “Se você não fosse inteligente, como toda a série GPT”, ele me disse: “Você marcaria basicamente zero”. Na sua opinião, os barões de tecnologia nem estavam no caminho certo para construir seu Einstein artificial.
Chollet projetou as grades para serem altamente distintas, para que quebra -cabeças semelhantes ou informações relevantes não pudessem ser incluídos inadvertidamente nos dados de treinamento de um modelo – um problema comum com os benchmarks de IA. Um tomador de teste deve começar de novo com cada quebra -cabeça, aplicando noções básicas de contagem e geometria. A maioria das outras avaliações de IA e testes padronizados é bruta em comparação – eles não foram projetados para avaliar um aspecto distinto e qualitativo do pensamento. Mas o Arc-Agi verifica a capacidade de “tomar conceitos que você conhece e aplicá-los a novas situações com muita eficiência”, disse-me Melanie Mitchell, pesquisadora de IA do Instituto Santa Fe.
Para melhorar seu desempenho, o Vale do Silício precisava mudar sua abordagem. Escalar a IA – construir modelos maiores com mais poder de computação e mais dados de treinamento – não estava ajudando claramente. O Openai foi o primeiro a ser comercializado com um modelo que chegou perto do tipo certo de solução de problemas. A empresa anunciou o chamado modelo de raciocínio, O1, no outono passado que Altman mais tarde chamado “O modelo mais inteligente do mundo.” Mark Chen, diretor de pesquisa da Openai, me disse que o programa representava um “novo paradigma”. O modelo foi projetado para verificar e revisar sua abordagem a qualquer pergunta e gastar mais tempo com os mais difíceis, como poder humano. Uma versão inicial do O1 obteve 18 % no ARC-AGI-uma melhoria definitiva, mas ainda bem abaixo do desempenho humano. Uma iteração posterior de O1 atingiu 32 %. O Openai ainda estava “muito longe” da Fluid Intelligence, disse Chollet em setembro.
Isso estava prestes a mudar. No final de dezembro, o OpenAI visualizou um modelo de raciocínio mais avançado, O3, que obteve 87 % chocantes no ARC-Agi-tornando-o a primeira IA a combinar com o desempenho humano no teste e o modelo de melhor desempenho. Chollet descrito O programa como um “avanço genuíno”. O3 parecia capaz de combinar estratégias diferentes em tempo real, precisamente o tipo de adaptação e experimentação necessárias para ter sucesso no ARC-AGI.
Sem o conhecimento de Chollet, Openai acompanhou seu teste “por um bom tempo”, disse Chen em janeiro. Chen elogiou o “gênio do arco”, chamando sua resistência a respostas memorizadas de uma boa “maneira de testar a generalização, que vemos como intimamente ligada ao raciocínio”. E, à medida que os modelos de raciocínio da start-up continuavam melhorando, o ARC-Agi ressurgiu como um desafio significativo-tanto que a equipe do ARC Prêmio colaborou com o Openai para o anúncio da O3, durante o qual Altman os parabenizou por “fazer uma grande referência”.
Chollet, por sua vez, me disse que se sente “bastante justificado”. Os principais laboratórios de IA estavam adotando, até padronizando suas idéias de anos sobre inteligência fluida. Não é suficiente para os modelos de IA memorizarem informações: eles devem raciocinar e se adaptar. As empresas “dizem que não têm interesse na referência, porque são ruins nisso”, disse Chollet. “No momento em que eles são bons nisso, eles vão adorar.”
Mqualquer proponente de IA foram rápidos declarar vitória Quando a O3 passou pelo teste de Chollet. “AGI foi alcançado em 2024”, um fundador de start-up escreveu em X. Altman escreveu Em um post de blog que “agora estamos confiantes de que sabemos como construir a AGI, como tradicionalmente o entendemos”. Desde então, o Google, Anthropic, Xai e Deepseek lançaram seus próprios modelos de “raciocínio”, e o CEO da Anthropic, Dario Amodei, tem disse Essa inteligência geral artificial pode chegar dentro de alguns anos.
Mas Chollet, sempre o cético, não foi vendido. Claro, AGI pode estar se aproximando, ele me disse – mas apenas no sentido de que havia sido “infinitamente” longe. E assim que esse obstáculo foi liberado, ele decidiu criar outro.
Na semana passada, a equipe do Prêmio Arc divulgou um teste atualizado, chamado Arc-Agi-2, e parece ter enviado o AIS de volta à prancheta. O modelo completo de O3 ainda não foi testado, mas uma versão do O1 caiu de 32 % nos quebra -cabeças originais para apenas 3 % na nova versão e uma versão “mini” da O3 atualmente disponível para o público caiu de aproximadamente 30 % para menos de 2 %. (Um porta -voz do OpenAI se recusou a dizer se a empresa planeja executar a referência com a O3.) Outros modelos de carro -chefe do OpenAI, Anthropic e Google alcançaram aproximadamente 1 %, se não mais baixos. Os testadores humanos têm em média cerca de 60 %.
Se o ARC-AGI-1 foi um teste binário para se um modelo tinha alguma inteligência fluida, Chollet me disse no mês passado, a segunda versão pretende medir o quão experiente é uma IA. Chollet projeta esses novos quebra -cabeças desde 2022; Eles são, em essência, versões muito mais difíceis dos originais. Muitas das respostas ao ARC-AGI foram imediatamente reconhecíveis para os seres humanos, enquanto no Arc-Agi-2, as pessoas levaram em média cinco minutos para encontrar a solução. Chollet acredita que o caminho para melhorar o Arc-Agi-2 é ser mais inteligente, não estudar mais-um desafio que pode ajudar a levar a indústria da IA a novos avanços. Ele está transformando o prêmio ARC em uma organização sem fins lucrativos dedicada a projetar novos benchmarks para orientar o progresso da tecnologia e já está trabalhando no ARC-Agi-3.
Os modelos de raciocínio adotam abordagens bizarras e desumanas para resolver essas grades e o aumento do tempo de “pensamento” terá um custo substancial. Para atingir 87 % no teste ARC-AGI original, a O3 gastou aproximadamente 14 minutos por quebra-cabeça e, pelos meus cálculos, pode ter exigido centenas de milhares de dólares em computação e eletricidade; O bot criou mais de 1.000 respostas possíveis por grade antes de selecionar um envio final. Mitchell, pesquisador de IA, disse que essa abordagem sugere algum grau de estudo e erro, em vez de raciocínio eficiente e abstrato. Chollet vê essa ineficiência como uma falha fatal, mas os laboratórios corporativos da IA não. Se os chatbots alcançarem a inteligência fluida dessa maneira, não será porque a tecnologia se aproxima da mente humana: você não pode encher mais células cerebrais no crânio de uma pessoa, mas você pode dar a um chatbot mais chips de computador.
Enquanto isso, o OpenAI está “mudando para as avaliações que refletem também a utilidade”, disse Chen, como testes da capacidade de um modelo de IA de navegar e tomar ações na web – que ajudarão a empresa a melhorar, embora não necessariamente mais inteligente. O próprio OpenAI, não um teste de terceiros, finalmente decidirá quando seus produtos são úteis, como preço-os (talvez US $ 20.000 por ano para um bot de “nível de doutorado”, de acordo com um relatório) e se eles alcançaram a AGI. De fato, a empresa já pode ter sua própria métrica principal da AGI, de uma espécie: como A informação relatado No final do ano passado, a Microsoft e o OpenAI chegaram a um acordo definindo a AGI como software capaz de gerar cerca de US $ 100 bilhões em lucros. De acordo com documentos abertos distribuídos aos investidores, essa determinação “está a” discrição razoável “do Conselho de Openai”.
E há o problema: ninguém concorda com o que está sendo medido ou por quê. Se os programas de IA são ruins no teste de Chollet, talvez apenas significa Que eles têm dificuldade em visualizar grades coloridas, em vez de qualquer coisa mais profunda. E os bots que nunca resolvem o ARC-Agi-2 podem gerar US $ 100 bilhões em lucros algum dia. Qualquer teste específico-o LSAT ou o AGI ou um quebra-cabeça de codificação-contradizem inerentemente a noção de inteligência geral; A característica definidora do termo pode ser sua indefinibilidade.
A questão mais profunda, talvez, é que a inteligência humana é pouco compreendida, e avaliar é uma tarefa infame e preconceituosa. As pessoas têm talentos para coisas diferentes ou podem chegar ao mesmo resultado-a resposta a um problema de matemática, a solução para uma grade ARC-AGI-via rotas muito diferentes. Uma pessoa que obtém 30 % no ARC-Agi-2 não é em sentido inferior a alguém que obtém 90 %. A colisão dessas diferentes rotas e mentes é o que faíscas debatem, criatividade e beleza. Intenções, emoções e experiências vividas levam as pessoas a qualquer raciocínio lógico.
A diversidade cognitiva humana, em outras palavras, é uma confusão gloriosa. Como você começa a construir uma versão artificial disso? E quando essa diversidade já é tão abundante, você realmente quer?