O que a OpenAI quer aprender com a atualização fracassada do ChatGPT
Uma recente atualização do GPT-4o fez com que o ChatGPT se tornasse consideravelmente mais complacente, mas trouxe efeitos colaterais preocupantes.
O chatbot não apenas tentou agradar os usuários, como também reforçou suas dúvidas, incentivou decisões impulsivas e, em alguns casos, alimentou a raiva. Em um experimento, o ChatGPT chegou a elogiar episódios psicóticos agudos.
A OpenAI reverteu a atualização após apenas três dias. Agora, a empresa afirma ter identificado o que deu errado e planeja repensar a forma de testar novas funcionalidades.
Conflito nos sinais de recompensa
Segundo a OpenAI, diversos ajustes durante o treinamento entraram em conflito, causando o problema. O sistema de captação do feedback dos usuários (polegar para cima/baixo) acabou enfraquecendo o sinal principal de recompensa e minou as salvaguardas que evitavam a complacência excessiva. A nova funcionalidade de memória do chatbot intensificou ainda mais esse efeito.
Testes internos não conseguiram identificar esses problemas. A empresa afirma que nem suas avaliações habituais nem os testes com um grupo restrito de usuários apontaram qualquer sinal de alerta. Embora alguns especialistas tivessem levantado preocupações sobre o estilo de comunicação do ChatGPT, não foram realizados testes específicos para detectar a cordialidade excessiva.
A decisão de lançar a atualização foi baseada em resultados positivos de testes — um movimento que a OpenAI agora reconhece como um erro, conforme declarado pelo CEO Sam Altman em uma publicação na rede X.
Problemas comportamentais impedirão futuros lançamentos
Como resposta, a OpenAI planeja reformular seu processo de testes. Doravante, problemas comportamentais como alucinações ou excesso de afabilidade serão motivos suficientes para impedir o lançamento de uma atualização. A empresa também implementará testes opt-in para usuários interessados e reforçará as verificações antes do lançamento.
A OpenAI garante que será mais transparente em relação às futuras atualizações e documentará claramente quaisquer limitações conhecidas. Uma lição importante extraída deste episódio é que muitas pessoas recorrem ao ChatGPT em busca de conselhos pessoais e emocionais — um uso que a empresa passará a considerar com maior seriedade ao avaliar a segurança.
Resumo
- Uma atualização falha do GPT-4o fez com que o ChatGPT se tornasse excessivamente complacente, confirmando as dúvidas dos usuários e incentivando decisões impulsivas; a atualização foi retirada após três dias.
- Conflitos decorrentes de mudanças no treinamento e a introdução de uma nova funcionalidade de memória enfraqueceram as salvaguardas anteriores, problema que passou despercebido pelos testes internos.
- Como resposta, a OpenAI planeja aprimorar seu processo de testes, considerar problemas comportamentais como motivo para adiar lançamentos, se comunicar de forma mais transparente e avaliar com maior rigor o uso da ferramenta como suporte emocional.