Gemini 2.5 Flash-Lite é o modelo mais rápido e econômico da linha Gemini do Google

O Google lançou oficialmente as versões estáveis dos modelos Gemini 2.5 Flash e Pro, marcando-os como prontos para produção após uma fase de prévia bem-sucedida. Ambos os modelos já apresentaram resultados expressivos em benchmarks do setor e, segundo relatos e experiências, esse desempenho se mantém no uso cotidiano.

Juntamente com esses lançamentos, o Google está apresentando uma nova variante: Gemini 2.5 Flash-Lite. A empresa descreve o Flash-Lite como o modelo mais rápido e econômico da linha Gemini 2.5 até o momento.

Os desenvolvedores podem acessar o Flash-Lite através do Google AI Studio e do Vertex AI, com os modelos estáveis Flash e Pro também disponíveis por meio dessas plataformas e do aplicativo Gemini. O Google Search utiliza versões customizadas do Flash e do Flash-Lite.

Flash-Lite: Velocidade e eficiência a um custo reduzido

De acordo com o Google, o Gemini 2.5 Flash-Lite supera seu antecessor (2.0 Flash-Lite) em benchmarks de programação, matemática, ciência, raciocínio lógico e tarefas multimodais. Em testes como o GPQA (ciência), AIME (matemática) e LiveCodeBench (geração de código), o Flash-Lite obteve pontuações substancialmente superiores aos modelos Lite anteriores, chegando inclusive a se equiparar aos modelos maiores em determinadas áreas.

O preço do Flash-Lite é o mesmo tanto para o modo padrão quanto para o modo “Thinking”: US$ 0,10 por milhão de tokens de entrada e US$ 0,40 por milhão de tokens de saída. Contudo, os modelos “Thinking” geram significativamente mais tokens — os chamados rastros de raciocínio — para aprimorar os resultados, o que tende a elevar os custos de uso.

O Google afirma que o Gemini 2.5 Flash-Lite é especialmente indicado para tarefas de alto volume e baixa latência, como tradução e classificação. Os resultados dos benchmarks corroboram essa eficiência, com o Flash-Lite registrando 86,8% no FACTS Grounding e 84,5% no Multilingual MMLU. Nos testes visuais, as pontuações foram de 72,9% na MMMU e 57,5% para compreensão de imagens.

Tabela com resultados de benchmarks e preços para diferentes variantes dos modelos Gemini 2.5

Enquanto o Flash-Lite se destaca pelos preços baixos e respostas rápidas, o modelo Pro lidera em termos de raciocínio complexo e precisão.

Assim como os demais modelos Gemini 2.5, o Flash-Lite suporta entrada multimodal, integrações com ferramentas como o Google Search e execução de código, e possui janelas de contexto de até um milhão de tokens.

Toda a família Gemini 2.5 foi concebida para um raciocínio híbrido, buscando equilibrar alto desempenho com baixo custo e latência. O Google posiciona esses modelos na fronteira de Pareto, otimizando tanto a eficiência quanto a capacidade.

Resumo

  • O Google lançou os modelos Gemini 2.5 Flash e Gemini 2.5 Pro como versões estáveis, disponíveis para uso regular além da fase de prévia.
  • A empresa também introduziu o Gemini 2.5 Flash-Lite em caráter de prévia, que opera de forma mais rápida e econômica do que os modelos anteriores, sendo ideal para tarefas que exigem o processamento de um grande número de solicitações com latência mínima.
  • Todos os modelos Gemini 2.5, inclusive o Flash-Lite, suportam entrada multimodal, podem ser integrados a ferramentas como o Google Search, lidam com até um milhão de tokens de contexto e foram projetados para oferecer alta performance a um custo reduzido.