Um estudo examina como o comportamento do ChatGPT mudou entre março e junho e descobre algumas mudanças significativas – e não para melhor.

Pesquisadores da Universidade de Stanford e da Universidade da Califórnia em Berkeley avaliaram o desempenho de uma versão mais antiga e uma mais recente do GPT-3.5 e do GPT-4 em quatro tarefas diferentes:

  1. Resolução de problemas de matemática
  2. Responder a perguntas complicadas/perigosas
  3. geração de código
  4. pensamento visual

O estudo mostra que o desempenho e o comportamento das duas versões diferem, às vezes drasticamente. Por exemplo, o GPT-4 (março de 2023) é capaz de reconhecer números primos com 97,6 ccuracy, enquanto o GPT-4 (junho de 2023) falha (2,4 ccuracy) e ignora o prompt da cadeia de raciocínio. O GPT-3.5 (junho de 2023), por outro lado, tem um desempenho significativamente melhor do que o GPT-3.5 (março de 2023) nessa tarefa.

O GPT-4 produz significativamente menos código diretamente executável em junho

Também há uma queda significativa na executabilidade direta do código: Para o GPT-4, a porcentagem de gerações diretamente executáveis caiu de 52% em março para 10% em junho. A queda para o GPT-3.5 também foi significativa (de 22% para 2%). O motivo: em março, tanto o GPT-4 quanto o GPT-3.5 seguiram as instruções do usuário (“apenas o código”) e, portanto, produziram gerações diretamente executáveis.

Em junho, no entanto, eles acrescentaram aspas triplas adicionais antes e depois do código, tornando-o não diretamente executável sem intervenção manual. A qualidade do código gerado parece estar em um nível semelhante, mas a equipe não realizou uma comparação detalhada.

A equipe também mostra que o GPT-4 responde a menos perguntas complicadas em junho e tem um desempenho ligeiramente melhor em tarefas de raciocínio visual, mas comete erros em junho que o modelo de março não comete. Os pesquisadores também observaram uma ligeira melhora no GPT-3.5.

A equipe recomenda que as empresas implementem a análise de monitoramento para serviços de LLM

O GPT-4 é pior agora do que era em março? O estudo não fornece uma resposta clara a essa pergunta, mas parece mostrar que a versão de junho contém bugs que não estavam presentes na versão anterior.

Então, qual é a verdadeira mensagem aqui?

“Nossas descobertas demonstram que o comportamento do GPT-3.5 e do GPT-4 variou significativamente em um período de tempo relativamente curto”, disseram os pesquisadores. “Isso destaca a necessidade de avaliar continuamente o comportamento dos LLMs em aplicativos de produção.”

Portanto, ainda não está claro se essas alterações são bugs, como sugeriu Peter Welinder, vice-presidente de produtos da OpenAI, em um exemplo semelhante, ou se são evidências de um declínio geral na qualidade com base nas otimizações que a OpenAI fez para cortar custos – e isso é um problema, pois não é claro para os clientes da OpenAI.

Como resultado, a equipe recomenda que os usuários ou empresas que usam serviços de LLM como parte de seu fluxo de trabalho implementem uma análise de monitoramento semelhante para seus aplicativos com base na pesquisa apresentada. Para dar suporte a esse processo e a outras pesquisas sobre o desvio do modelo de linguagem, a equipe está disponibilizando a avaliação e os dados do ChatGPT no GitHub.

A OpenAI reage à pesquisa, “analisando-a”

Respondendo à pesquisa. Logan Kilpatrick, atual líder de relações com desenvolvedores da OpenAI, disse que a empresa está ciente das regressões relatadas e está analisando-as. Ele também solicitou um conjunto de avaliação pública da OpenAI para testar esses casos de regressão conhecidos à medida que novos modelos são lançados.

Em uma publicação separada, ele agradeceu a todos por relatarem suas experiências com o desempenho do modelo GPT-4. Portanto, a empresa parece estar mudando a comunicação depois de alguns casos em que a equipe da OpenAI disse que nada havia mudado e Welinder compartilhou sua hipótese de que “quando você o usa mais intensamente, começa a perceber problemas que não via antes”

O mercado de IA generativa ainda precisa de controle de qualidade

No entanto, os problemas que a OpenAI enfrenta com o GPT-4 não são exclusivos da empresa. Qualquer empresa que implante e atualize regularmente modelos de IA pode relutar em comunicar as alterações se elas não se traduzirem diretamente em melhorias de desempenho ou reduções de custo para seus clientes e, em alguns casos, a empresa pode nem perceber a degradação antes da implantação. Caso em questão: Relatórios de degradação de desempenho também surgiram com o serviço de IA generativa Midjourney. Esses relatórios mostram a mesma estrutura de relatos pessoais e especulações.

Tudo isso mostra como o mercado de produtos de IA generativa é novo e complicado. No futuro, avaliações como a que Kilpatrick quer criar podem ajudar a passar de evidências anedóticas para benchmarks claros.

Com conteúdo do The Decoder.