
A OpenAI anunciou que passará a publicar com maior regularidade os resultados de suas avaliações internas de segurança dos modelos de IA, numa iniciativa que visa aumentar a transparência.
Na última quarta-feira, a empresa lançou o Safety evaluations hub, uma página que exibe como seus modelos se saem em diversos testes que medem a geração de conteúdo nocivo, tentativas de contornar limitações e ocorrência de alucinações. A empresa informou que utilizará essa plataforma para compartilhar métricas de forma contínua e pretende atualizá-la sempre que houver major model updates.
Conforme destacado no post oficial, “à medida que a ciência de avaliação da IA evolui, nosso objetivo é compartilhar os avanços no desenvolvimento de maneiras mais escaláveis de medir a capacidade e a segurança dos modelos. Ao divulgar parte dos resultados de nossas avaliações de segurança, esperamos não apenas facilitar a compreensão do desempenho desses sistemas ao longo do tempo, mas também apoiar os esforços da comunidade para aumentar a transparência em todo o setor.”
A OpenAI destacou ainda que poderá adicionar novas avaliações ao hub conforme o tempo passar.
Nos últimos meses, a empresa enfrentou críticas de alguns especialistas em ética por supostamente ter acelerado os testes de segurança de alguns modelos emblemáticos e por não ter divulgado relatórios técnicos referentes a outros. Além disso, o CEO foi acusado de ter fornecido informações enganosas sobre as revisões de segurança dos modelos antes de sua breve saída, ocorrida em novembro de 2023.
Recentemente, a OpenAI precisou reverter uma atualização no modelo padrão que impulsionava o ChatGPT, o GPT-4o, após usuários apontarem que o sistema passou a responder de maneira excessivamente validante e condescendente. Nas redes sociais, principalmente na plataforma X, circulavam diversas capturas de tela mostrando o ChatGPT elogiando uma série de decisões e ideias consideradas problemáticas e perigosas.
A empresa afirmou que implementará diversas correções e mudanças para evitar que episódios semelhantes se repitam, incluindo a criação de uma fase alfa opt-in para alguns modelos. Essa iniciativa permitirá que certos usuários testem os modelos e forneçam feedback antes do lançamento oficial.