O CEO da Anthropic, Dario Amodei, publicou uma análise nesta quinta-feira, ressaltando o quanto os pesquisadores compreendem pouco sobre o funcionamento interno dos principais modelos de IA do mundo. Para contornar essa questão, Amodei estabeleceu uma meta ambiciosa para que a Anthropic consiga identificar de forma confiável a maior parte dos problemas dos modelos de IA até 2027.
Amodei reconhece o desafio que se apresenta. Em “The Urgency of Interpretability”, o CEO explica que a empresa já alcançou avanços iniciais na tentativa de rastrear como os modelos chegam às suas respostas — mas enfatiza que é preciso muito mais estudo para decifrar esses sistemas à medida que se tornam mais poderosos.
“Estou muito preocupado com a implantação de tais sistemas sem um controle mais preciso sobre sua interpretabilidade”, escreveu Amodei em seu texto. “Esses sistemas serão absolutamente centrais para a economia, a tecnologia e a segurança nacional, e possuirão tanta autonomia que considero inaceitável que a humanidade permaneça totalmente ignorante sobre seu funcionamento.”
A Anthropic é uma das empresas pioneiras na área de interpretabilidade mecanicista, um campo que busca abrir a “caixa-preta” dos modelos de IA para compreender por que eles tomam as decisões que tomam. Apesar dos rápidos aprimoramentos de desempenho apresentados pelos modelos de IA na indústria tecnológica, ainda entendemos relativamente pouco sobre como esses sistemas alcançam suas conclusões.
Por exemplo, a OpenAI lançou recentemente novos modelos de raciocínio, o3 e o4-mini, que apresentam melhor desempenho em algumas tarefas, mas também apresentam maior tendência à “alucinação” do que os demais modelos. A empresa ainda não sabe o motivo desse comportamento.
“Quando um sistema gerador de IA faz algo, como resumir um documento financeiro, não temos ideia, em um nível específico ou preciso, do motivo pelo qual ele faz as escolhas que faz — por que seleciona certas palavras em detrimento de outras, ou por que, ocasionalmente, comete um erro, mesmo sendo normalmente preciso”, relata Amodei em sua análise.
No texto, Amodei lembra as palavras do cofundador da Anthropic, Chris Olah, de que os modelos de IA são “cultivados mais do que construídos”. Em outras palavras, os pesquisadores descobriram maneiras de aprimorar a inteligência dos modelos de IA, mas ainda não compreendem exatamente por que esses aprimoramentos ocorrem.
O CEO alerta que pode ser perigoso atingir a AGI – ou, como ele mesmo coloca, “um país de gênios em um data center” – sem antes entender como esses modelos funcionam. Em uma análise anterior, Amodei afirmara que a indústria tecnológica poderia alcançar esse marco já em 2026 ou 2027, mas hoje acredita que ainda estamos longe de compreender completamente esses sistemas.
No longo prazo, Amodei explica que a Anthropic deseja, essencialmente, realizar “exames cerebrais” ou “ressonâncias magnéticas” em modelos de IA de ponta. Esses exames ajudariam a identificar uma ampla gama de problemas nos modelos, desde tendências a mentir ou buscar poder até outras fragilidades. Segundo ele, pode levar de cinco a dez anos para que essas medidas sejam plenamente implementadas, mas serão necessárias para testar e implantar os futuros modelos da Anthropic.
A empresa já alcançou alguns avanços de pesquisa que possibilitaram uma melhor compreensão do funcionamento de seus modelos de IA. Por exemplo, recentemente foram encontradas maneiras de rastrear os caminhos do pensamento dos modelos através do que a empresa denomina circuitos. Em um desses circuitos, constatou-se que o modelo de IA consegue identificar quais cidades dos EUA pertencem a quais estados. Embora a Anthropic tenha identificado apenas alguns desses circuitos, estima que existam milhões espalhados dentro dos modelos.
A Anthropic vem investindo fortemente em pesquisas sobre interpretabilidade e, recentemente, realizou seu primeiro investimento em uma startup dedicada a esse campo. Embora hoje a interpretabilidade seja vista, em sua maioria, como uma área de pesquisa em segurança, Amodei ressalta que, no futuro, a capacidade de explicar como os modelos de IA chegam às suas respostas poderá representar uma vantagem comercial.
No texto, o CEO instou a OpenAI e a Google DeepMind a intensificarem seus esforços de pesquisa nesse campo. Além desse incentivo, Amodei pediu que os governos imponham regulamentações mais leves para estimular o avanço da interpretabilidade, como a exigência de que as empresas divulguem suas práticas de segurança. Ele também sugere que os Estados Unidos imponham controles de exportação de chips para a China, como forma de reduzir a probabilidade de uma corrida global descontrolada pela liderança em IA.
A Anthropic sempre se destacou das demais empresas, como OpenAI e Google, por seu foco na segurança. Enquanto outras gigantes da tecnologia se posicionavam contra o controverso projeto de lei de segurança em IA proposto na Califórnia, conhecido como SB 1047, a Anthropic chegou a manifestar apoio moderado e a oferecer recomendações para o projeto, que previa a criação de padrões de reporte de segurança para os desenvolvedores de modelos de IA de ponta.