Modelos de IA da OpenAI contam com nova salvaguarda contra riscos biológicos

A OpenAI implementou um novo sistema para monitorar seus recentes modelos de raciocínio, o3 e o4-mini, visando prevenir que esses modelos forneçam orientações que possam incentivar a realização de ataques potencialmente prejudiciais, especialmente relacionados a ameaças biológicas e químicas.

O sistema, descrito como um “monitor de raciocínio com foco em segurança”, é treinado especificamente para interpretar as diretrizes de conteúdo da OpenAI e identificar solicitações que envolvam riscos biológicos e químicos, fazendo com que os modelos se recusem a oferecer conselhos sobre tais temas.

De acordo com os testes internos, os modelos o3 e o4-mini representam um avanço significativo em relação aos modelos anteriores, o que pode aumentar os riscos nas mãos de pessoas mal-intencionadas. Em particular, o o3 demonstrou ter maior capacidade para responder a perguntas relacionadas à criação de determinadas ameaças biológicas. Para estabelecer uma referência, a OpenAI contou com cerca de 1.000 horas de trabalho de equipes internas que identificaram conversas relacionadas a riscos biológicos consideradas inseguras. Durante os testes simulando a lógica de bloqueio do monitor, os modelos recusaram respostas para solicitações arriscadas em 98,7% das vezes.

A empresa ressalta que os testes não levaram em conta a possibilidade de usuários tentarem novas abordagens após serem bloqueados pelo monitor, por isso, o monitoramento humano continuará fazendo parte da estratégia de segurança. Embora os modelos não ultrapassem o limite de “alto risco” para ameaças biológicas, versões iniciais já demonstraram ser mais eficientes que modelos anteriores, como o o1 e o GPT-4, ao responder questões sobre o desenvolvimento de armas biológicas.

A OpenAI mantém um acompanhamento ativo sobre como seus modelos podem facilitar o desenvolvimento de ameaças químicas e biológicas, integrando cada vez mais sistemas automatizados para mitigar esses riscos. Em um exemplo semelhante, a empresa utiliza um monitor de raciocínio para evitar que o gerador de imagens nativo do GPT-4o produza conteúdos inapropriados.

Screenshot 2025 04 16 at 2.09.10PM