A Microsoft Research desenvolveu um método mais eficiente para incorporar conhecimento externo em modelos de linguagem. O novo sistema, chamado Knowledge Base-Augmented Language Models (KBLaM), adota uma abordagem plug-and-play que não requer a modificação dos modelos existentes.

Diferentemente das abordagens atuais, como o RAG ou o In-Context Learning, o KBLaM não utiliza sistemas de recuperação separados. Em vez disso, ele transforma o conhecimento em pares de vetores e os integra diretamente na arquitetura do modelo por meio do que a Microsoft chama de “atenção retangular”.

Microsoft KBLaM FigureEdit

Ao processar o conhecimento diretamente dentro do modelo, sem recorrer à recuperação externa, o KBLaM apresenta respostas mais rápidas e eficientes se comparado aos sistemas tradicionais. Sistemas RAG, por exemplo, enfrentam um problema de escalabilidade quadrática devido ao mecanismo de autoatenção – cada token interage com todos os outros. Assim, inserir 1.000 tokens da base de conhecimento leva o processamento a um milhão de interações, enquanto 10.000 tokens resultam em 100 milhões de interações.

Microsoft KBLaM vs RAG

Dados indicam que o KBLaM é capaz de processar 4.096 triplas de conhecimento de forma mais rápida do que o RAG consegue lidar com apenas 5 triplas. O sistema contorna o problema da escalabilidade: embora a entrada do usuário possa acessar todos os tokens de conhecimento, estes não interagem entre si nem com a entrada, o que faz com que o poder computacional necessário cresça de forma linear em relação ao tamanho da base de conhecimento. Segundo os pesquisadores, uma única GPU é capaz de gerenciar mais de 10.000 triplas de conhecimento (cerca de 200.000 tokens).

Abrindo Espaço para Desenvolvedores

Testes preliminares apontam resultados promissores. Quando operando com aproximadamente 200 itens de conhecimento, o KBLaM supera os modelos tradicionais ao evitar alucinações e negar respostas para perguntas que não possuem respaldo informacional. Além disso, o sistema oferece maior transparência em comparação ao in-context learning, pois permite relacionar o conhecimento a tokens específicos.

O código e os conjuntos de dados do KBLaM já estão disponíveis no GitHub. O sistema integra-se a diversos modelos populares, incluindo o Llama 3 da Meta e o Phi-3 da Microsoft, com planos para expandir o suporte aos Transformers da Hugging Face. Contudo, os pesquisadores ressaltam que o método ainda necessita de aprimoramentos antes de sua aplicação em larga escala, especialmente para tarefas de raciocínio mais complexas.

Os grandes modelos de linguagem enfrentam um paradoxo interessante: suas janelas de contexto estão se expandindo, permitindo o manejo de informações em maior quantidade, mas o processamento confiável de todos esses dados continua sendo um desafio. Dessa forma, embora o RAG tenha se tornado uma solução comum para fornecer informações específicas aos modelos, o KBLaM sugere um caminho potencialmente mais eficiente.

  • A Microsoft Research desenvolveu o KBLaM, um método inovador que integra diretamente bases de dados estruturadas de conhecimento em modelos de linguagem sem a necessidade de módulos de recuperação separados ou retreinamento do modelo.
  • O esforço computacional do KBLaM cresce de forma linear com o volume de dados, ao contrário dos métodos convencionais, como o RAG, que escalonam de forma quadrática. Essa abordagem se mostra eficaz na redução de alucinações.
  • O código e os conjuntos de dados foram disponibilizados como código aberto e são compatíveis com modelos como o Llama-3 e o Phi-3, embora sejam necessários mais aprimoramentos antes de uma implementação em larga escala.