O Giraffe é um LLM de código aberto com uma janela de contexto de 32.000 tokens, tornando-o útil para muitas aplicações em contextos de negócios.
Modelos de linguagem grandes como o GPT-4 mostram capacidades impressionantes, mas muitas vezes têm uma janela de contexto limitada, o que limita seu uso em tarefas onde eles teriam que processar dezenas de páginas. Variantes como GPT-4-32k ou Claude da Anthropic com uma janela de contexto de 100.000 tokens fornecem uma “memória” muito maior e, portanto, são mais poderosas nesses casos de uso.
Agora, os pesquisadores estenderam a janela de contexto do modelo LLaMA de código aberto em até 10 vezes usando técnicas de interpolação que atingem cerca de 32.000 tokens. O LLM resultante, chamado Giraffe, vem em uma versão de 13 bilhões de parâmetros e tem uma das maiores janelas de contexto de qualquer LLM de código aberto.
O Open Source Giraffe fornece informações sobre o dimensionamento de janelas de contexto
Sendo de código aberto, a pesquisa também fornece alguns insights importantes sobre o funcionamento interno de LLMs e diferentes técnicas de dimensionamento para ampliar a janela de contexto. De acordo com a equipe do Abacus.AI, o dimensionamento de posições foi o mais eficaz para aumentar o comprimento do contexto, com outros também tendo algum efeito.
Eles também descobriram que a precisão em tarefas de contexto longo diminuiu com o aumento da duração, demonstrando as limitações das técnicas atuais, e mostraram que a perplexidade, comumente usada para medir o desempenho do MML, por si só, é insuficiente para medir o desempenho em contexto longo, destacando a necessidade de testes personalizados.
Mais informações e dados estão disponíveis no projeto GitHub, com o modelo Giraffe-v2-13b-32k sendo hospedado no Hugging Face.