Início Ciência e tecnologia Google Rolling Out Gemini 2.5 Flash para Devs e Gemini App

Google Rolling Out Gemini 2.5 Flash para Devs e Gemini App

9
0

Depois de detalhando brevemente a semana passada, o Google está lançando o Gemini 2.5 Flash na pré -visualização hoje. Um “orçamento de pensamento” permite que os desenvolvedores controlem quanto raciocínio ocorre, dependendo do prompt e do caso de uso.

Todos os modelos da família Gemini 2.5 têm recursos de raciocínio que pensam “através de seus pensamentos antes de responder” por “desempenho aprimorado e precisão aprimorada”. Isso é ideal para instruções que requerem raciocínio em várias etapas, como problemas de matemática e analisando perguntas de pesquisa

Em vez de gerar imediatamente uma saída, o modelo pode executar um processo de “pensamento” para entender melhor a consulta, dividir tarefas complexas e planejar sua resposta.

Para desenvolvedores

Os modelos Flash de Gêmeos são conhecidos por sua velocidade e menor custo. Isso não está mudando com 2,5 flash, mas o Google está introduzindo recursos de raciocínio, onde os desenvolvedores são capazes de “definir orçamentos de pensamento para controlar o custo versus a qualidade”.


Principais especificações para Gemini 2.5 Flash em visualização (Gemini-2.5-Flash-Preview-04-17):

Anúncio – Role para obter mais conteúdo

  • Limites de taxa: 1000 rpm / 10.000 rpd (camada paga), 10 rpm / 500 rpd (camada grátis)
  • Corte de conhecimento: janeiro de 2025
  • Modalidades de entrada: texto, imagens, vídeo, áudio
  • Modalidades de saída: texto
  • Janela de contexto: 1 milhão de tokens
  • Comprimento máximo de saída: tokens de 64k

Especificamente, os desenvolvedores controlam o “número de tokens que um modelo pode gerar enquanto pensa” de 0 a 24.576 tokens. Há um slider no Google AI Studio e Vertex AI, bem como um parâmetro API. Nos gráficos abaixo, você pode ver como a qualidade do raciocínio melhora à medida que o orçamento aumenta.

Se o orçamento de pensamento estiver definido como zero, este novo modelo corresponderá ao custo e à latência do Flash 2.0.

Se um orçamento não for especificado, o Gemini 2.5 Flash “decide automaticamente quanto pensar com base na complexidade da tarefa percebida”. O Google fornece exemplos de raciocínio mínimo, médio e alto:


Solicita com mínimo raciocínio:

  • “Obrigado” em espanhol
  • Quantas províncias o Canadá tem?

Solicita com médio raciocínio:

  • Você rola dois dados. Qual é a probabilidade que eles somam 7?
  • Minha academia tem horário de coleta para basquete entre as 21h e as 15h no MWF e entre as 14h às 20h na terça e sábado. Se eu trabalhar das 9h às 18h 5 dias por semana e quiser jogar 5 horas de basquete durante a semana, crie um cronograma para que tudo funcione.

Solicita com alto raciocínio:


No contexto dos agentes, outro exemplo é como os resumos rápidos envolveriam um orçamento de baixo pensamento, enquanto a análise detalhada requer uma maior.

O flash Gemini 2.5 está disponível para visualizar desenvolvedores no Google AI Studio e Vertex AI. O Google diz que “continuará melhorando o Gemini 2.5 Flash, com mais em breve, antes de torná -lo geralmente disponível para uso completo da produção”.

Aplicativo Gemini

2.5 Flash (Experimental) também está chegando ao aplicativo Gemini com a capacidade de ajustar automaticamente quanto raciocínio ocorre com base na complexidade do prompt. Os usuários finais não recebem nenhum tipo de ajuste manual no aplicativo.

No lançamento, os vários recursos do aplicativo Gemini, como aplicativos/extensões, upload de arquivos etc., são suportados, enquanto esse modelo substituirá o pensamento flash 2.0 (experimental), que foi atualizado pela última vez em março.

FTC: Utilizamos links de afiliados de automóveis. Mais.

Fonte