“BigCode”, uma iniciativa conjunta da Hugging Face e da ServiceNow, apresenta o Starcoder e o StarcoderBase, dois grandes modelos de linguagem de código aberto. Os pesquisadores enfatizam especialmente a seleção transparente e compatível com direitos autorais dos dados.
Os modelos Starcoder, com 15,5 bilhões de parâmetros, são capazes de gerar código em 86 linguagens de programação. Em uma abordagem inovadora, os pesquisadores utilizaram um método chamado “multi-query attention”, que permite aos modelos Starcoder focar em múltiplas partes do código ao mesmo tempo, ao invés de processar cada token de forma sequencial. Isso possibilita que ambos os modelos Starcoder leiam maiores quantidades de código (janelas de contexto de 8K) de forma mais rápida e eficiente, acelerando a compreensão e geração de código.
De acordo com a pesquisadora participante Lubna Ben Allal, os modelos Starcoder foram treinados em dados altamente selecionados, o que exigiu muito esforço humano: “Nós inspecionamos manualmente de 50 a 100 arquivos para todas as extensões nas linguagens de programação selecionadas e escolhemos filtros adequados”, disse Ben Allal.
O trabalho parece ter valido a pena: ambos os modelos apresentam um desempenho melhor em benchmarks do que qualquer outro modelo aberto que suporte múltiplas linguagens de programação, e até mesmo igualam ou superam o modelo “code-cushman-001” da OpenAI.
Isso coloca o Starcoder na crescente lista de modelos de IA de código aberto que podem competir com modelos industriais proprietários, embora o desempenho de código do Starcoder ainda possa ficar atrás do GPT-4.
A equipe do Starcoder respeita a privacidade e os direitos autorais
Ambos os modelos também visam estabelecer um novo padrão em governança de dados. A equipe afirma ter usado apenas dados permitidos sem referências pessoais para o treinamento de dados e também implementou um mecanismo de exclusão e um mecanismo de busca de trechos de código caso você queira verificar se seu código está incluído nos dados usados do banco de dados The Stack.
A equipe lança o modelo Starcoder sob a licença Open Responsible AI Model, que suporta uso comercial. O modelo não é otimizado para instruções fora da caixa, mas pode ser otimizado como um assistente técnico com algumas instruções adicionais. Todas as informações relevantes adicionais e links podem ser encontrados em HuggingFace Starcoder.