Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
Google lançou Gêmeos 2.5 Flashuma grande atualização para a sua programação de IA que oferece às empresas e desenvolvedores controle sem precedentes sobre a quantidade de “pensar” que sua IA é executada. O novo modelo, lançado hoje em visualização por meio Google para estudar e Vértice airepresenta um esforço estratégico para oferecer recursos aprimorados de raciocínio, mantendo preços competitivos no mercado de IA cada vez mais lotado.
O modelo apresenta o que o Google chama de “orçamento de pensamento” – Um mecanismo que permite aos desenvolvedores especificar quanto poder computacional deve ser alocado ao raciocínio por meio de problemas complexos antes de gerar uma resposta. Essa abordagem visa abordar uma tensão fundamental no mercado de IA de hoje: o raciocínio mais sofisticado normalmente tem o custo de maior latência e preços.
“Sabemos que o custo e a latência é importante para vários casos de uso do desenvolvedor e, portanto, queremos oferecer aos desenvolvedores a flexibilidade de adaptar a quantidade de pensamento que o modelo faz, dependendo de suas necessidades”, disse Tulsee Doshi, diretor de produtos da Gemini Models do Google DeepMind, em uma entrevista exclusiva com a VentureBeat.
Essa flexibilidade revela a abordagem pragmática do Google para a implantação de IA, à medida que a tecnologia se torna cada vez mais incorporada em aplicativos de negócios, onde a previsibilidade de custos é essencial. Ao permitir ou desligar a capacidade de pensamento, o Google criou o que chama de “primeiro modelo de raciocínio totalmente híbrido”.
Pague apenas pela força cerebral necessária: dentro do novo modelo de preços de IA do Google
A nova estrutura de preços destaca o custo do raciocínio nos sistemas de IA de hoje. Ao usar Gêmeos 2.5 Flashos desenvolvedores pagam US $ 0,15 por milhão de tokens pela entrada. Os custos de saída variam drasticamente com base nas configurações de raciocínio: US $ 0,60 por milhão de tokens com o pensamento desligado, saltando para US $ 3,50 por milhão de tokens com o raciocínio ativado.
Essa diferença de preço de quase seis vezes para saídas fundamentadas reflete a intensidade computacional do processo de “pensamento”, onde o modelo avalia vários caminhos e considerações em potencial antes de gerar uma resposta.
“Os clientes pagam por qualquer pensamento e tokens de saída que o modelo gera”, disse Doshi à VentureBeat. “No estúdio de IA UX, você pode ver esses pensamentos antes de uma resposta. Na API, atualmente não fornecemos acesso aos pensamentos, mas um desenvolvedor pode ver quantos tokens foram gerados.”
O orçamento de pensamento pode ser ajustado de 0 a 24.576 tokens, operando como um limite máximo, em vez de uma alocação fixa. Segundo o Google, o modelo determina de maneira inteligente quanto desse orçamento usar com base na complexidade da tarefa, preservando os recursos quando o raciocínio elaborado não é necessário.
Como Gemini 2.5 Flash empilha: resultados de referência contra os principais modelos de IA
Reivindicações do Google Gêmeos 2.5 Flash Demonstra o desempenho competitivo nos principais benchmarks, mantendo um tamanho de modelo menor que as alternativas. Sobre Último exame da humanidadeum teste rigoroso projetado para avaliar o raciocínio e o conhecimento, 2,5 Flash obteve 12,1%, superando o Antrópico Claude 3,7 soneto (8,9%) e Deepseek R1 (8,6%), apesar de ficar aquém do OpenAI lançado recentemente O4-mini (14,3%).
O modelo também registrou fortes resultados em benchmarks técnicos como Diamante GPQA (78,3%) e Exames de matemática de Aime (78,0% em 2025 testes e 88,0% em 2024 testes).
“As empresas devem escolher 2,5 flash, pois fornecem o melhor valor para seu custo e velocidade”, disse Doshi. “É particularmente forte em relação aos concorrentes em matemática, raciocínio multimodal, contexto longo e várias outras métricas importantes”.
Os analistas do setor observam que esses benchmarks indicam que o Google está estreitando a lacuna de desempenho com os concorrentes, mantendo uma vantagem de preços – uma estratégia que pode ressoar com os clientes corporativos assistindo seus orçamentos de IA.
Smart vs. Speedy: Quando sua IA precisa pensar profundamente?
A introdução do raciocínio ajustável representa uma evolução significativa na maneira como as empresas podem implantar IA. Com os modelos tradicionais, os usuários têm pouca visibilidade ou controle sobre o processo de raciocínio interno do modelo.
A abordagem do Google permite que os desenvolvedores otimizem para diferentes cenários. Para consultas simples, como tradução de idiomas ou recuperação de informações básicas, o pensamento pode ser desativado para obter a máxima eficiência de custos. Para tarefas complexas que requerem raciocínio em várias etapas, como uma análise matemática de solução de problemas ou análise diferenciada, a função de pensamento pode ser ativada e ajustada.
Uma inovação importante é a capacidade do modelo de determinar quanto raciocínio é apropriado com base na consulta. O Google ilustra isso com exemplos: uma pergunta simples como “Quantas províncias o Canadá tem?” Requer raciocínio mínimo, enquanto uma pergunta complexa de engenharia sobre os cálculos de tensão de feixe envolveria automaticamente processos de pensamento mais profundos.
“A integração dos recursos de pensamento em nossos modelos de Gêmeos de Gêmeos, combinados com melhorias em geral, levou a respostas de maior qualidade”, disse Doshi. “Essas melhorias são verdadeiras nos benchmarks acadêmicos – incluindo o SimpleQA, que mede a factualidade”.
Semana da IA do Google: acesso gratuito ao aluno e geração de vídeo junte -se ao lançamento do Flash 2.5
O lançamento de Gêmeos 2.5 Flash Vem durante uma semana de movimentos agressivos do Google no espaço da IA. Na segunda -feira, a empresa foi lançada Eu vejo 2 Recursos de geração de vídeo para assinantes avançados de Gemini, permitindo que os usuários criem clipes de vídeo de oito segundos a partir de avisos de texto. Hoje, juntamente com o anúncio do Flash 2.5, o Google revelou que Todos os estudantes universitários dos EUA receberão acesso gratuito a Gemini Advanced até a primavera de 2026 – Um movimento interpretado pelos analistas como um esforço para criar lealdade entre futuros trabalhadores do conhecimento.
Esses anúncios refletem a estratégia multifacetada do Google para competir em um mercado dominado pelo ChatGPT do OpenAI, que teria mais de 800 milhões de usuários semanais em comparação com a estimada de Gemini’s estimada 250-275 milhões de usuários mensaisde acordo com análises de terceiros.
O modelo Flash 2.5, com seu foco explícito na eficiência de custos e na personalização do desempenho, aparece projetado para atrair particularmente os clientes corporativos que precisam gerenciar cuidadosamente os custos de implantação de IA enquanto ainda acessam recursos avançados.
“Estamos super empolgados em começar a receber feedback dos desenvolvedores sobre o que eles estão construindo com o Gemini Flash 2.5 e como eles estão usando orçamentos de pensamento”, disse Doshi.
Além da pré -visualização: o que as empresas podem esperar à medida que o Gemini 2.5 Flash amadurece
Enquanto este lançamento está em visualização, o modelo já está disponível para os desenvolvedores começarem a construir, embora o Google não tenha especificado um cronograma para a disponibilidade geral. A empresa indica que continuará refinando os recursos de pensamento dinâmico com base no feedback do desenvolvedor durante esta fase de visualização.
Para os adotantes da IA corporativa, esta versão representa uma oportunidade de experimentar abordagens mais sutis para a implantação de IA, potencialmente alocando mais recursos computacionais para tarefas de alto risco, conservando os custos em aplicativos de rotina.
O modelo também está disponível para os consumidores através do Aplicativo Geminionde aparece como “2.5 flash (experimental)” no menu suspenso modelo, substituindo a opção de pensamento 2.0 anterior (experimental). Essa implantação voltada para o consumidor sugere que o Google está usando o ecossistema de aplicativos para obter feedback mais amplo sobre sua arquitetura de raciocínio.
À medida que a IA se torna cada vez mais incorporada nos fluxos de trabalho de negócios, a abordagem do Google com raciocínio personalizável reflete um mercado de amadurecimento, onde a otimização de custos e o ajuste de desempenho estão se tornando tão importantes quanto os recursos brutos – sinalizando uma nova fase na comercialização de tecnologias generativas de IA.
Fonte