O Google está testando uma nova abordagem para modelos de linguagem

O Google está testando um novo tipo de modelo de linguagem chamado Gemini Diffusion — um sistema experimental que gera texto utilizando técnicas de difusão, em vez da tradicional predição palavra por palavra.

Diferentemente dos modelos convencionais, que produzem texto palavra a palavra, o Gemini Diffusion emprega uma técnica inspirada na geração de imagens. O sistema começa com um ruído aleatório e, em múltiplas passagens, molda esse ruído em trechos completos de texto, permitindo correções durante o processo e um controle mais preciso sobre a saída. Segundo a Deepmind, esse método proporciona um resultado mais consistente e logicamente conectado, sendo especialmente eficaz para tarefas que exigem precisão, coerência e iteração, como a geração de código e a edição textual.

Gemini Diffusion poderia ser a notícia mais importante do I/O do Google que passou despercebida

Rapidez e Competitividade

O Gemini Diffusion gera seções completas de texto de uma única vez — conseguindo fazê-lo de forma muito mais rápida do que os modelos autoregressivos que operam da esquerda para a direita. A Deepmind relata uma velocidade de 1.479 tokens por segundo (excluindo custos adicionais), com uma latência inicial de apenas 0,84 segundos. Brendan O'Donoghue, pesquisador da Deepmind, afirma que o modelo pode atingir até 2.000 tokens por segundo em tarefas de programação, mesmo considerando etapas como tokenização, pré-preenchimento e verificações de segurança.

Benchmarks e Resultados Comparativos

Em testes comparativos, o desempenho do Gemini Diffusion se equipara, de maneira geral, ao do Gemini 2.0 Flash Lite. Em avaliações de tarefas de programação — como os testes HumanEval (89,6% versus 90,2%) e MBPP (76,0% versus 75,8%) — os resultados são quase idênticos. Além disso, o modelo se destaca levemente em LiveCodeBench (30,9% versus 28,5%) e LBPP (56,8% versus 56,0%). Por outro lado, ele registrou pontuações inferiores em outras áreas, como no teste de raciocínio científico GPQA Diamond (40,4% versus 56,5%) e no exame multilíngue Global MMLU Lite (69,1% versus 79,0%).

Comparação de benchmarks entre Gemini Diffusion e Gemini 2.0 Flash-Lite

Jack Rae, cientista principal na Google Deepmind, classificou esses resultados como um “momento histórico”. Até então, os modelos autoregressivos vinham superando consistentemente os modelos de difusão na qualidade do texto, e não se sabia se essa lacuna seria fechada. Rae atribui o avanço à pesquisa concentrada e à solução de diversos desafios técnicos.

O Gemini Diffusion encontra-se, por ora, disponível apenas em forma de demonstração experimental.