Atualmente, a Anthropic parece ser a concorrente OpenAI mais relevante. A startup acaba de lançar um novo chatbot, o Claude 2, que está no mesmo nível do ChatGPT, mas mais cauteloso.

“Eu certamente preferiria que Claude fosse chato do que que Claude fosse perigoso”, diz Dario Amodei sobre as restrições de segurança de Claude. Amodei foi anteriormente o líder da equipe de segurança de IA na OpenAI e agora é CEO da Anthropic. No futuro, um chatbot totalmente capaz, mas seguro, é possível, mas ainda é uma “ciência em evolução”, diz Amodei.

Amodei se preocupa com os chamados jailbreaks, prompts específicos que fazem com que um modelo gere conteúdo que não deveria gerar de acordo com as especificações do desenvolvedor – ou de acordo com a lei. Atualmente, essas explorações podem levar a resultados triviais, mas isso pode mudar.

“Mas se eu olhar para onde as curvas de escala estão indo, estou profundamente preocupado que, em dois ou três anos, chegaremos ao ponto em que os modelos podem, não sei, fazer coisas muito perigosas com ciência, engenharia, biologia, e então um jailbreak pode ser vida ou morte”, diz Amodei.

“Acho que estamos melhorando com o tempo no enfrentamento dos jailbreaks. Mas também acho que os modelos estão ficando mais poderosos.”

O CEO da Anthropic vê “talvez 10% de chance” de que o dimensionamento de sistemas de IA falhe porque não há dados suficientes, e os dados sintéticos são imprecisos. “Isso congelaria as capacidades no nível atual.”

Se essa tendência de escalonamento não for interrompida, Amodei espera ver casos de uso indevido grave de IA, como a geração em massa de notícias falsas, nos próximos dois a três anos.

Segurança de IA: o feedback da máquina é melhor do que o feedback humano?

Ao contrário da OpenAI e de outras empresas de IA, a Anthropic depende de regras fixas e avaliação de IA em vez de feedback humano. O sistema de IA recebe um conjunto de diretrizes éticas e morais, uma “constituição”, que a Anthropic compilou de várias fontes, como leis ou políticas corporativas. Um segundo sistema de IA avalia se as primeiras gerações do sistema estão seguindo as regras e fornece feedback.

Testes internos mostraram que a segurança dessa abordagem era semelhante em algumas áreas ao ChatGPT, que foi treinado com feedback humano (RLHF), e “substancialmente mais forte” em algumas áreas, disse Amodei. No geral, as grades de proteção de Claude são mais fortes, de acordo com Amodei.

Para a entrevista completa com Amodei, ouça o podcast “Hard Fork” do New York Times. O chatbot Claude 2 da Anthropic está sendo implementado nos EUA e no Reino Unido.