Gemma-3-27b-it-qat-q4_0-gguf parece uma senha de Wi‑Fi, mas é o LLM mais enxuto do Google

O treinamento ciente de quantização permite que os modelos mais recentes do Google rodem em GPUs locais e até dispositivos móveis.

Com uma abordagem de treinamento especializada, essas novas variantes da família Gemma 3 agora podem ser executadas de forma eficiente em hardware de consumo — pense em GPUs para jogos ou mesmo dispositivos móveis — sem sofrer uma queda significativa na qualidade. Para colocar em contexto, os modelos originais foram desenvolvidos para configurações de alto desempenho utilizando GPUs NVIDIA H100 e precisão BFloat16, o que os tornava pouco acessíveis para a maioria dos usuários.

A chave para essa transformação é a quantização, um processo que reduz drasticamente o uso de memória. Tanto os modelos quanto seus checkpoints estão disponíveis no Hugging Face e no Kaggle.

Quantização significa armazenar pesos e ativações com menos bits — frequentemente 8, 4 ou até mesmo 2 — em vez dos usuais 16 ou 32. Isso gera modelos menores que rodarão mais rapidamente, já que números de menor precisão podem ser transferidos e processados com maior agilidade.

Reduzindo o uso de memória através do treinamento ciente de quantização

Com a Gemma 3, o Google adota o Treinamento Ciente de Quantização (QAT), uma técnica que incorpora condições de precisão reduzida já no treinamento. Ao simular, desde o início, larguras de bits inferiores, o modelo aprende a se adaptar a essas limitações, minimizando a queda de desempenho normalmente associada à execução com menor precisão.

As economias de memória são substanciais. Por exemplo, o modelo de 27B diminui de 54 GB de VRAM para apenas 14,1 GB no formato int4. A variante de 12B reduz de 24 GB para 6,6 GB. Mesmo os modelos menores se beneficiam: a versão de 4B passa a ocupar 2,6 GB, enquanto o modelo de 1B necessita de apenas 0,5 GB.

Gráfico de barras comparando os requisitos de VRAM dos diferentes tamanhos dos modelos Gemma 3, entre as versões bruta (bf16) e quantizada (int4)

A quantização dos modelos Gemma resulta em uma drástica redução dos requisitos de VRAM. Por exemplo, enquanto o modelo de 27B precisa de 54 GB em seu formato original, a versão quantizada opera com apenas 14,1 GB — mantendo um desempenho, segundo o Google, comparável graças ao treinamento ciente de quantização.

O Google afirma que, devido ao QAT, os modelos se mostram “robustos à quantização”, embora essa condição tipicamente implicasse alguma perda na qualidade. Contudo, a empresa ainda não divulgou benchmarks atualizados para comprovar essa afirmação.

Os modelos são compatíveis com os motores de inferência mais comuns, facilitando sua integração em fluxos de trabalho já estabelecidos. Há suporte nativo para Ollama, LM Studio e MLX (para Apple Silicon), entre outros. Além disso, ferramentas como llama.cpp e gemma.cpp também oferecem suporte para os modelos Gemma quantizados no formato GGUF.

Além dos lançamentos oficiais do Google, a comunidade também tem experimentado variações sob a bandeira do “Gemmaverse” — versões comunitárias que utilizam a quantização pós-treinamento para equilibrar tamanho do modelo, velocidade e qualidade.

Resumo

  • Google lançou novas versões dos modelos de linguagem Gemma 3, utilizando quantização para reduzir os requisitos de memória e permitindo que sejam executados em GPUs de consumo e dispositivos móveis.
  • Com o Treinamento Ciente de Quantização (QAT), os modelos mantêm sua qualidade mesmo ao operar com larguras de bits reduzidas, diminuindo drasticamente o uso de VRAM.
  • Esses modelos otimizados funcionam com motores de inferência populares como Ollama, LM Studio e MLX, estando disponíveis em diversos formatos em plataformas como Hugging Face e Kaggle.