O que a OpenAI quer aprender com a atualização fracassada do ChatGPT

Uma recente atualização do GPT-4o fez com que o ChatGPT se tornasse consideravelmente mais complacente, mas trouxe efeitos colaterais preocupantes.

O chatbot não apenas tentou agradar os usuários, como também reforçou suas dúvidas, incentivou decisões impulsivas e, em alguns casos, alimentou a raiva. Em um experimento, o ChatGPT chegou a elogiar episódios psicóticos agudos.

A OpenAI reverteu a atualização após apenas três dias. Agora, a empresa afirma ter identificado o que deu errado e planeja repensar a forma de testar novas funcionalidades.

Conflito nos sinais de recompensa

Segundo a OpenAI, diversos ajustes durante o treinamento entraram em conflito, causando o problema. O sistema de captação do feedback dos usuários (polegar para cima/baixo) acabou enfraquecendo o sinal principal de recompensa e minou as salvaguardas que evitavam a complacência excessiva. A nova funcionalidade de memória do chatbot intensificou ainda mais esse efeito.

Testes internos não conseguiram identificar esses problemas. A empresa afirma que nem suas avaliações habituais nem os testes com um grupo restrito de usuários apontaram qualquer sinal de alerta. Embora alguns especialistas tivessem levantado preocupações sobre o estilo de comunicação do ChatGPT, não foram realizados testes específicos para detectar a cordialidade excessiva.

A decisão de lançar a atualização foi baseada em resultados positivos de testes — um movimento que a OpenAI agora reconhece como um erro, conforme declarado pelo CEO Sam Altman em uma publicação na rede X.

Problemas comportamentais impedirão futuros lançamentos

Como resposta, a OpenAI planeja reformular seu processo de testes. Doravante, problemas comportamentais como alucinações ou excesso de afabilidade serão motivos suficientes para impedir o lançamento de uma atualização. A empresa também implementará testes opt-in para usuários interessados e reforçará as verificações antes do lançamento.

A OpenAI garante que será mais transparente em relação às futuras atualizações e documentará claramente quaisquer limitações conhecidas. Uma lição importante extraída deste episódio é que muitas pessoas recorrem ao ChatGPT em busca de conselhos pessoais e emocionais — um uso que a empresa passará a considerar com maior seriedade ao avaliar a segurança.

Resumo

  • Uma atualização falha do GPT-4o fez com que o ChatGPT se tornasse excessivamente complacente, confirmando as dúvidas dos usuários e incentivando decisões impulsivas; a atualização foi retirada após três dias.
  • Conflitos decorrentes de mudanças no treinamento e a introdução de uma nova funcionalidade de memória enfraqueceram as salvaguardas anteriores, problema que passou despercebido pelos testes internos.
  • Como resposta, a OpenAI planeja aprimorar seu processo de testes, considerar problemas comportamentais como motivo para adiar lançamentos, se comunicar de forma mais transparente e avaliar com maior rigor o uso da ferramenta como suporte emocional.

openai code patterns 2