BioCoder é uma referência projetada para apoiar o desenvolvimento de modelos de IA para bioinformática.
Pesquisadores da Universidade de Yale e do Google Deepmind apresentam o BioCoder, uma referência para testar a capacidade de modelos de IA de gerar código específico de bioinformática. À medida que os recursos do ChatGPT ou modelos de código especializados crescem, os modelos serão usados para tarefas cada vez mais complexas, diz a equipe.
Gerar programas funcionais em bioinformática é um desafio significativo devido à quantidade de conhecimento de domínio, à necessidade de operações de dados complexas e às dependências funcionais complexas entre as operações, disseram eles.
O BioCoder foi projetado para ajudar a testar esses recursos – e, assim, apoiar o desenvolvimento de tais modelos. O benchmark inclui 2.269 problemas de codificação e integra desafios do mundo real, como dependências, importações e variáveis globais para explorar melhor os recursos pragmáticos de codificação dos modelos de IA.
Ele é baseado em 1026 funções e 1243 métodos em Python e Java, todos de repositórios GitHub de bioinformática e parte de publicações revisadas por pares. A partir deles, a equipe criou problemas de código com prompts, contexto e soluções de exemplo.
ChatGPT atualmente lidera o benchmark BioCoder
O BioCoder foi usado para testar InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ e ChatGPT. O GPT-3.5 Turbo da OpenAI superou os outros geradores de código com tanta facilidade que a equipe chama a lacuna de “surpreendente”. “Esse contraste gritante ressalta o papel crucial do tamanho do conjunto de dados e do tamanho do parâmetro dos modelos base na realização de prompts de geração de código de domínio fechado”, diz a equipe.
Em um experimento, no entanto, a equipe conseguiu melhorar o desempenho do StarCoder por meio de ajustes finos. Assim, o sucesso em domínios especializados, como a bioinformática, é possível não apenas com grandes modelos de linguagem, como o ChatGPT, mas também com modelos menores e especializados, disseram eles. No futuro, a equipe planeja testar outros modelos abertos, como o LLamA2 da Meta, e espera melhorias de modelos com comprimentos de contexto mais longos.
No entanto, o BioCoder continuou sendo um desafio para o ChatGPT, já que o modelo só alcançou uma precisão de pouco menos de 50%. O GPT-4 ainda não foi testado.
Mais informações, benchmarks, código e dados estão disponíveis no GitHub.