O OpenChatKit é a difusão estável de modelos de bate-papo? Ainda não, mas provavelmente não vai demorar.
A comunidade de código aberto Together lançou a primeira alternativa de código aberto ao ChatGPT, o OpenChatKit. O chatbot é baseado no modelo de linguagem de 20 bilhões de parâmetros GPT-NeoX da EleutherAI e foi ajustado com 43 milhões de instruções para uso em bate-papo. No benchmark HELM padrão do setor, o modelo de bate-papo supera o modelo base.
OpenChatKit vem com um kit de ferramentas
Além do modelo de linguagem especializado GPT-NeoXT-Chat-Base-20B, o kit, que está disponível gratuitamente para desenvolvedores no GitHub sob a licença Apache 2.0, inclui os seguintes componentes:
- Receitas de personalização para ajustar o modelo para obter alta precisão em suas tarefas.
- Um sistema de recuperação extensível que permite aumentar as respostas do bot com informações de um repositório de documentos, API ou outra fonte de informações atualizadas ao vivo no momento da inferência.
- Um modelo de moderação, ajustado a partir do GPT-JT-6B, projetado para filtrar quais perguntas o bot responde.
Ferramentas para os usuários fornecerem feedback sobre as respostas do chatbot e adicionar novos conjuntos de dados também são incorporadas.
OpenChatKit tem funções ainda limitadas
Os desenvolvedores dizem que os pontos fortes do OpenChatKit estão em tarefas como resumir e responder perguntas com contexto, extrair informações e classificar texto.
No entanto, é menos convincente quando se trata de perguntas sem contexto, codificação e escrita criativa – todas as tarefas que ajudaram o ChatGPT a se tornar tão popular – embora o chatbot da OpenAI também tenha alucinações regularmente. O OpenChatKit também se esforça para mudar de assunto no meio de uma conversa e, às vezes, repete as respostas.
O OpenChatKit teve um desempenho muito melhor depois de ser ajustado para casos de uso específicos. A Together está trabalhando em seus próprios chatbots para aprendizado, aconselhamento financeiro e solicitações de suporte.
No teste curto, o OpenChatKit não foi tão eloquente quanto o ChatGPT, em parte porque as respostas são limitadas a 256 tokens em vez de cerca de 500. As respostas são muito mais curtas, mas o OpenChatKit gera respostas muito mais rápidas. Alternar entre idiomas não parece causar problemas ao bot. Formatar como uma lista ou tabela também é possível.
O treinamento descentralizado de modelos de IA é o futuro?
Seja qual for o resultado, o processo de treinamento é provavelmente o futuro dos projetos de código aberto em larga escala: assim como o GPT-JT, os desenvolvedores do OpenChatKit adotaram uma abordagem descentralizada, distribuindo o poder de computação necessário de um data center central para muitos computadores.
Embora o OpenChatKit seja o primeiro produto no mundo de código aberto a emular o ChatGPT, certamente não será o único. Com os modelos LLaMa da Meta vazados no início deste mês – o maior dos quais tem três vezes mais parâmetros que o GPT-NeoX-20B – deve ser apenas uma questão de tempo antes de vermos um chatbot baseado nele.
Você pode experimentar o OpenChatKit gratuitamente no Hugging Face.