“Temos realmente pressionado o ‘pensamento'”, diz Jack Rae, um principal cientista de pesquisa da DeepMind. Tais modelos, que são construídos para resolver os problemas logicamente e passam mais tempo chegando a uma resposta, ganharam destaque no início deste ano com o lançamento do modelo Deepseek R1. Eles são atraentes para as empresas de IA porque podem melhorar um modelo existente, treinando -o para abordar um problema pragmaticamente. Dessa forma, as empresas podem evitar ter que construir um novo modelo a partir do zero.
Quando o modelo de IA dedica mais tempo (e energia) a uma consulta, custa mais para ser executado. Tabelas de classificação dos modelos de raciocínio mostram que uma tarefa pode custar mais de US $ 200 para concluir. A promessa é que esse tempo e tempo extras ajudam a raciocinar os modelos se saem melhor ao lidar com tarefas desafiadoras, como analisar código ou coletar informações de muitos documentos.
“Quanto mais você pode iterar sobre certas hipóteses e pensamentos”, diz o diretor técnico do Google DeepMind Koray Kavukcuoglu, mais “vai encontrar a coisa certa”.
Isso não é verdade em todos os casos, no entanto. “O modelo pensa”, diz Tulsee Doshi, que lidera a equipe de produtos da Gemini, referindo -se especificamente ao Gemini Flash 2.5, o modelo lançado hoje que inclui um controle deslizante para os desenvolvedores de volta o quanto ele pensa. “Para instruções simples, o modelo pensa mais do que precisa.”
Quando um modelo gasta mais do que o necessário em um problema, torna o modelo caro de executar para desenvolvedores e piora a pegada ambiental da IA.
Nathan Habib, engenheiro de abraçar o rosto que estudou a proliferação de tais modelos de raciocínio, diz que o pensamento excessivo é abundante. Na pressa de mostrar uma IA mais inteligente, as empresas estão buscando modelos de raciocínio como martelos, mesmo onde não há pregos à vista, diz Habib. De fato, quando o OpenAI anunciou um novo modelo em fevereiro, disse que seria o último modelo não -riscado da empresa.
O ganho de desempenho é “inegável” para certas tarefas, diz Habib, mas não para muitos outros onde as pessoas normalmente usam a IA. Mesmo quando o raciocínio é usado para o problema certo, as coisas podem dar errado. Habib me mostrou um exemplo de um modelo de raciocínio líder que foi solicitado a trabalhar através de um problema de química orgânica. Começou tudo bem, mas no meio do processo de raciocínio, as respostas do modelo começaram a se parecer com um colapso: ele pulverizou “Espere, mas …” centenas de vezes. Acabou demorando muito mais do que um modelo não racial gastaria em uma tarefa. Kate Olszewska, que trabalha na avaliação de modelos Gemini na DeepMind, diz que os modelos do Google também podem ficar presos em loops.
O novo mostrador de “raciocínio” do Google é uma tentativa de resolver esse problema. Por enquanto, é construído não para a versão do consumidor da Gemini, mas para os desenvolvedores que estão criando aplicativos. Os desenvolvedores podem definir um orçamento para a quantidade de poder de computação que o modelo deve gastar em um determinado problema, sendo a idéia para recusar o mostrador se a tarefa não envolver muito raciocínio. As saídas do modelo são cerca de seis vezes mais caras para gerar quando o raciocínio é ativado.