Estudo do MIT explica por que o escalonamento dos modelos de linguagem funciona de forma tão confiável
Pesquisadores do MIT apresentam uma explicação mecanicista para o fato de que o desempenho de grandes modelos de linguagem aumenta de forma confiável à medida que seu tamanho é ampliado. A resposta está em um fenômeno chamado superposição.
A constatação de que modelos maiores apresentam melhor desempenho é uma das descobertas mais consistentes na pesquisa em inteligência artificial. Dobrar parâmetros, dados de treinamento ou capacidade computacional resulta em uma redução do erro de previsão que segue uma lei de potência. Essas chamadas Leis de Escalonamento Neural impulsionam o desenvolvimento de sistemas cada vez maiores. No entanto, o motivo de sua existência jamais havia sido completamente explicado.
Um estudo apresentado na NeurIPS 2025 por Yizhou Liu, Ziming Liu e Jeff Gore, do MIT, remete esse fenômeno a uma propriedade geométrica inerente aos próprios modelos: a superposição.
Modelos de linguagem abrigam mais conceitos do que o espaço permite
Os modelos de linguagem precisam acomodar dezenas de milhares de tokens e ainda mais significados abstratos em um espaço interno que possui apenas alguns milhares de dimensões. Em teoria, um espaço tridimensional comporta apenas três conceitos sem interferência. Os grandes modelos (LLMs) contornam essa limitação armazenando múltiplos conceitos simultaneamente nas mesmas dimensões, fazendo com que os vetores resultantes se sobreponham levemente. Essa compressão de múltiplos significados em um espaço exíguo é o que os pesquisadores denominam de superposição.
Até o momento, muitas explicações pressupunham que apenas os conceitos mais comuns eram representados de forma nítida, enquanto o restante seria perdido (“superposição fraca”). No entanto, a equipe do MIT demonstra, utilizando um modelo simplificado da Anthropic, que essa abordagem não corresponde ao funcionamento real dos LLMs.
Dois regimes oferecem duas explicações diferentes
Os pesquisadores desenvolveram um modelo de inteligência artificial altamente simplificado, dotado de um controle no treinamento que permitia ajustar o grau de sobreposição dos conceitos armazenados. Dessa forma, foi possível comparar dois casos extremos.
No primeiro caso — superposição fraca — o modelo armazena de forma clara apenas os conceitos mais comuns, ignorando os demais. O erro de previsão, nesse cenário, provém principalmente dos conceitos raros que são descartados. A escalabilidade do desempenho, seguindo uma lei de potência, dependeria da forma como os conceitos se distribuem nos dados de treinamento. Só quando essa distribuição também segue uma lei de potência é que o erro se comporta da mesma forma, circunstância que o artigo denomina “lei de potência na entrada, lei de potência na saída”.
No segundo caso — superposição forte — o modelo armazena todos os conceitos simultaneamente, permitindo que seus vetores se sobreponham levemente. Nessa configuração, o erro não resulta da ausência de conceitos, mas do ruído gerado por essas sobreposições. Um padrão robusto se revela: dobrar a largura do modelo reduz aproximadamente pela metade o erro, conforme previsto por uma simples relação geométrica (1/m, onde m representa a largura do modelo). A distribuição dos conceitos nos dados torna-se praticamente irrelevante.
Modelos reais de linguagem confirmam a teoria
Para verificar qual dos regimes se aplica aos sistemas reais, a equipe analisou as camadas de saída de modelos de código aberto, como OPT, GPT-2, Qwen2.5 e Pythia, que variam de aproximadamente 100 milhões a 70 bilhões de parâmetros. O resultado foi inequívoco: todos os tokens estão representados no modelo, os vetores se sobrepõem e a intensidade dessas sobreposições diminui exatamente na proporção prevista de 1/m. Em outras palavras, os modelos de linguagem operam no regime de superposição forte.
O expoente de escalonamento medido alinha-se com a teoria, atingindo 0,91, valor próximo ao teórico de 1. Dados do Chinchilla, da DeepMind, produzem um resultado quase idêntico, de 0,88. Segundo os pesquisadores, essas leis de escalonamento decorrem diretamente da forma como os modelos de linguagem organizam geometricamente os significados em suas representações.
Implicações práticas para o escalonamento e a arquitetura
O estudo apresenta respostas concretas para duas questões em aberto na pesquisa em inteligência artificial. A primeira diz respeito a saber se o escalonamento eventualmente deixa de funcionar. De acordo com os pesquisadores, sim: quando a largura do modelo se iguala ao tamanho de seu vocabulário, há espaço suficiente para representar cada token sem sobreposição, eliminando-se o erro causado por representações comprimidas e quebrando-se a lei de potência nesse limite.
A segunda questão é se é possível acelerar as leis de escalonamento para extrair mais desempenho de cada parâmetro adicionado. Para a linguagem natural, a resposta provavelmente é negativa, pois a distribuição de frequência das palavras é relativamente plana. Entretanto, para aplicações especializadas, em que os conceitos relevantes se distribuem de maneira bastante desigual, um escalonamento mais acentuado pode ser alcançado.
Essas descobertas também trazem implicações para o design de arquiteturas: modelos que incentivam ativamente a superposição tendem a apresentar melhor desempenho para o mesmo tamanho. Um exemplo disso é o nGPT da Nvidia, que força os vetores internos a se projetarem numa esfera unitária, compactando-os de maneira mais densa.
Contudo, há um desafio: à medida que aumenta a sobreposição entre os conceitos, torna-se mais difícil entender o que realmente ocorre dentro do modelo. Esse fator representa um obstáculo significativo para a interpretabilidade mecanicista e, por extensão, para a segurança em inteligência artificial.
