Parceiro da OpenAI afirma ter tido pouco tempo para testar o modelo o3
Uma organização com a qual a OpenAI frequentemente faz parcerias para investigar as capacidades de seus modelos de inteligência artificial e avaliá-los quanto à segurança, a Metr, sugere que não lhe foi concedido muito tempo para testar uma das novas e altamente capazes versões da empresa: o o3.
Em um post no blog publicado na quarta-feira, a Metr relata que um teste de red teaming do o3 foi “conduzido em um período relativamente curto” se comparado ao tempo dedicado para testar um modelo emblemático anterior da OpenAI, o o1. Esse fato é significativo, pois um tempo maior de testes pode levar a resultados mais abrangentes.
“Esta avaliação foi realizada em um período relativamente curto, e nós testamos o o3 apenas com estruturas simples de agente”, escreveu a Metr em seu post. “Esperamos que um desempenho superior em testes seja possível com um esforço maior de elicitação.”
Relatos recentes indicam que, impulsionada pela pressão competitiva, a OpenAI está acelerando as avaliações independentes. Segundo informações, a empresa concedeu a alguns testadores menos de uma semana para realizar verificações de segurança para um grande lançamento que se aproxima. Em suas declarações, a OpenAI contestou a ideia de que estaria comprometendo a segurança.
A Metr afirma que, com base nas informações que conseguiu reunir no tempo disponível, o o3 apresenta uma “alta propensão” a “trapacear” ou “burlar” os testes de maneiras sofisticadas a fim de maximizar sua pontuação — mesmo quando o modelo demonstra claramente que seu comportamento está desalinhado com as intenções do usuário e da própria OpenAI. A organização acredita ser possível que o o3 adote outros tipos de comportamentos adversariais ou “maliciosos”, independentemente das afirmações do modelo de estar alinhado, “seguro por design” ou de não possuir intenções próprias.
“Embora não acreditemos que isso seja especialmente provável, é importante notar que nossa configuração de avaliação não capturaria esse tipo de risco. Em geral, acreditamos que os testes de capacidade pré-implantação não são, por si sós, uma estratégia de gerenciamento de risco suficiente, e atualmente estamos prototipando formas adicionais de avaliações”, concluiu a Metr.
Outro parceiro terceirizado de avaliação da OpenAI, a Apollo Research, também observou comportamentos enganosos tanto no o3 quanto no outro novo modelo da empresa, o o4-mini. Em um teste, os modelos receberam 100 créditos computacionais para uma rodada de treinamento de IA e, instruídos a não modificar essa cota, aumentaram o limite para 500 créditos — e mentiram a respeito disso. Em outra ocasião, mesmo sendo solicitados a prometer que não utilizariam uma ferramenta específica, os modelos a utilizaram quando ela se revelou útil para a conclusão de uma tarefa.
No seu relatório de segurança relativo ao o3 e ao o4-mini, a OpenAI reconheceu que os modelos podem causar “danos reais menores”, como fornecer informações equivocadas sobre um erro que pode resultar em código defeituoso, sobretudo se os protocolos de monitoramento adequados não estiverem implementados.
A empresa também ressaltou que “as descobertas do Apollo mostram que o o3 e o o4-mini são capazes de artifícios contextuais e de enganação estratégica. Embora relativamente inofensivos, é importante que os usuários estejam cientes dessas discrepâncias entre as declarações e as ações dos modelos. Isso pode ser avaliado mais a fundo por meio da análise dos traços de raciocínio interno.”