Os pesquisadores treinam um modelo de linguagem da Meta com texto gerado pelo GPT-3.5 da OpenAI por menos de US $ 600 – e alcançam um desempenho semelhante.

Treinar grandes modelos de linguagem é caro, e modelos poderosos continuam sendo o monopólio de grandes empresas de tecnologia – certo?

Talvez não.

Pesquisadores de Stanford usaram 52.000 demonstrações de instruções geradas pelo GPT-3.5 da OpenAI (texto-davinci-003) para ajustar uma variante de sete bilhões de parâmetros do modelo LLaMA recentemente anunciado pela Meta.

O treinamento de instrução é uma das principais técnicas que tornam o GPT-3.5 superior ao modelo GPT-3 original, e os dados de treinamento usados são proprietários do OpenAI.

Embora o RLHF seja fundamental para ajustar modelos como o ChatGPT ou mesmo o GPT-4, os recursos essenciais dos modelos são baseados em seu treinamento original – ou seja, treinamento com instruções também.

Alpaca de Stanford treina com saída OpenAI

Em seu trabalho, o grupo de Stanford usou as instruções geradas pela IA para treinar a Alpaca 7B, um modelo de linguagem que, segundo os pesquisadores, exibe muitos comportamentos semelhantes ao GPT-3.5. Em um teste cego usando a entrada do Self-Instruct Evaluation Set, ambos os modelos tiveram desempenho comparável, diz a equipe.

A alpaca tem problemas comuns a outros modelos de linguagem, como alucinações, toxicidade e estereótipos. Em particular, as alucinações ocorrem com mais frequência do que no modelo OpenAI.

A equipe está lançando uma demonstração interativa, o conjunto de dados de treinamento e o código de treinamento. Eles também pediram permissão à Meta para liberar o modelo. Com o lançamento, a equipe espera permitir pesquisas sobre modelos de linguagem treinados com instruções. Para evitar o uso indevido, eles incluíram um filtro de conteúdo através da API OpenAI e uma marca d ‘água na demonstração.

O modelo não pode ser utilizado para fins comerciais. Além das preocupações de segurança e da licença não comercial do modelo LLaMA da Meta, a equipe aponta para os termos de uso do OpenAI GPT-3.5, que afirmam que o modelo não pode ser usado para desenvolver modelos de IA que competem com o OpenAI.

O treinamento da Alpaca foi tão barato que a OpenAI tem um problema

O último ponto é uma indicação de que a OpenAI está ciente de que a saída de seus próprios modelos pode ser usada como uma fonte de dados para possíveis réplicas. Com o vazamento dos modelos LLaMA maiores com até 65 bilhões de parâmetros, é concebível que tais projetos já estejam em andamento – e também possam usar a saída do GPT-4.

Além de seu desempenho impressionante para um modelo tão pequeno, a Alpaca também mostra como o treinamento em IA se tornou acessível: a equipe treinou o Alpaca 7B por menos de US $ 600. Modelos maiores serão mais caros, mas o custo esperado deve estar em uma faixa que possa ser facilmente financiada por empresas ou projetos de crowdsourcing.

O pesquisador de alinhamento Eliezer Yudkowsky resume o problema que isso representa para empresas como a OpenAI:“ Se você permitir qualquer acesso suficientemente amplo ao seu modelo de IA, mesmo por API paga, estará distribuindo suas joias da coroa comercial para concorrentes que podem quase clonar seu modelo sem todo o trabalho árduo que você fez para construir seu próprio conjunto de dados de ajuste fino”.

O que a OpenAI pode fazer sobre isso? Não muito, diz Yudkowsky: “Se você aplicar com sucesso uma restrição contra a comercialização de uma imitação treinada em seu I/O – uma perspectiva legal que nunca foi testada, neste momento – isso significa que os pontos de verificação concorrentes sobem no BitTorrent”.

Você pode experimentar o Alpaca 7B de Stanford gratuitamente.