O ChatGPT consegue ler 4.096 tokens, enquanto o LongNet consegue ler um bilhão. Isso poderia permitir que modelos Transformer processem partes inteiras da Web simultaneamente.

O comprimento da sequência em modelos Transformer desempenha um papel importante no treinamento e especialmente na implantação: comprimentos de sequência maiores permitem uma janela de contexto ampla em que, por exemplo, um modelo de linguagem possa processar e gerar mais texto, ou um transformer de visão possa capturar mais informações em uma imagem.

Um grande problema ao aumentar o comprimento da sequência é que a relação entre o comprimento da sequência e o poder de processamento necessário é quadrática na arquitetura padrão do Transformer, o que leva a um rápido aumento do poder de processamento necessário.

O LongNet processa 250.000 vezes mais tokens do que o ChatGPT

No entanto, é possível alcançar comprimentos de sequência maiores por meio de várias otimizações: o ChatGPT da OpenAI tem uma janela de contexto de 4.096 tokens, o que equivale a cerca de 3.000 palavras. Porém, existem variantes do GPT-3.5-turbo com cerca de 8.000 tokens, e o maior modelo GPT-4 tem cerca de 32.000 tokens. Com o Claude, a Anthropic oferece um modelo comercialmente disponível com cerca de 100.000 tokens.

Com o LongNet, a Microsoft está demonstrando um método que escala linearmente e, segundo a equipe, pode alcançar um bilhão de tokens, o que é 250.000 vezes mais longo do que o ChatGPT. Isso equivale a aproximadamente 750.000.000 de palavras ou 2.000.000 de páginas.

A equipe alcança esse avanço por meio de um mecanismo de atenção adaptado chamado “atenção dilatada”. Nesse caso, a alocação de atenção diminui exponencialmente à medida que a distância entre os tokens aumenta, de modo que a rede observe as relações entre tokens próximos com a mesma atenção de um mecanismo de atenção padrão, mas aplique padrões de atenção mais amplos aos tokens mais distantes.

LongNet permite o processamento de conjuntos de dados do tamanho da Web

Em um teste, a equipe utiliza o LongNet para treinar um modelo de geração de fala com até 32.000 tokens e compara-o com abordagens baseadas em transformadores clássicos. Segundo a equipe, o LongNet demonstra as leis de escala conhecidas dos modelos de transformadores clássicos; por exemplo, a perplexidade do modelo diminui à medida que ele se torna maior.

No futuro, o LongNet poderá possibilitar o processamento de conjuntos de dados do tamanho da Web, afirmou a equipe. A grande janela de contexto também fornece uma memória e um campo receptivo amplos para os modelos, o que é relevante para sua interação com pessoas ou com o mundo. Uma janela de contexto maior também contém caminhos de causalidade e raciocínio mais complexos que os modelos podem explorar nos dados de treinamento, o que pode resultar em modelos com melhor capacidade de generalização. O LongNet também possibilita explorar os limites do aprendizado em contexto, afirmou a equipe, “o que tem o potencial de ser uma mudança de paradigma para o aprendizado com muitos exemplos, já que um contexto extremamente longo pode ajudar os modelos a aliviar o esquecimento catastrófico”.

Por enquanto, o LongNet é apenas um conceito de prova

Ainda não está claro se o LongNet realmente pode cumprir essas promessas; o artigo carece de comparações com modelos de linguagem modernos, como o GPT-4 32k, e métricas verdadeiramente significativas, como precisão ou avaliações humanas. Nesse aspecto, o LongNet é inicialmente um estudo de viabilidade; será necessário mostrar em trabalhos futuros se esses comprimentos de sequência gigantescos trazem vantagens reais.

No futuro, a equipe planeja utilizar o LongNet para outras aplicações, como modelos de linguagem multimodal de grande escala ou modelagem de dados genômicos.