Na quarta-feira, o Google DeepMind divulgou um artigo extenso detalhando sua abordagem de segurança para a inteligência artificial geral (AGI) – definida como uma IA capaz de realizar qualquer tarefa que um ser humano execute. O tema é bastante controverso no campo da IA, pois enquanto alguns críticos afirmam que a AGI é pouco mais do que um devaneio, outros, inclusive grandes laboratórios como o Anthropic, alertam que ela pode estar mais próxima do que se imagina e causar danos catastróficos, caso não sejam implementadas salvaguardas adequadas.

O documento, com 145 páginas e coautoria do ex-cofundador Shane Legg, prevê que a AGI poderá surgir até 2030 e resultar no que os autores definem como “danos severos”. Embora esse conceito não seja concretamente especificado, o artigo alerta para riscos existenciais capazes de destruir permanentemente a humanidade.

Os autores afirmam que “prevemos o desenvolvimento de uma AGI Excepcional antes do final desta década”, definindo essa AGI como um sistema que, em diversas tarefas não físicas – inclusive as metacognitivas, como a aprendizagem de novas habilidades – tem desempenho equivalente ao de pelo menos 99% dos adultos qualificados.

O texto estabelece uma comparação entre as abordagens de DeepMind, Anthropic e OpenAI para a mitigação dos riscos relacionados à AGI. Enquanto o Anthropic teria dada menos ênfase ao treinamento robusto, ao monitoramento e à segurança, a OpenAI se mostra excessivamente otimista quanto à automatização da pesquisa de segurança em IA, também conhecida como pesquisa de alinhamento.

O artigo ainda questiona a viabilidade de uma inteligência superinteligente – aquela que realizaria tarefas melhor do que qualquer ser humano. Apesar de recentes declarações da OpenAI afirmando que seu foco estaria migrando da AGI para a superinteligência, os autores do estudo desconfiam que sistemas superinteligentes venham a emergir em breve, a não ser que haja inovações arquiteturais significativas.

Além disso, o documento considera plausível que os paradigmas atuais possibilitem a “melhoria recursiva da IA”, um ciclo de feedback positivo em que a própria IA realiza pesquisas para desenvolver sistemas cada vez mais sofisticados. Essa perspectiva, segundo os autores, representa um perigo tremendo.

Em linhas gerais, o artigo propõe o desenvolvimento de técnicas que bloqueiem o acesso de agentes mal-intencionados a uma eventual AGI, aprimorem a compreensão das ações dos sistemas de IA e reforcem os ambientes em que a IA atua. Embora reconheça que muitas dessas técnicas ainda se encontram em estágio inicial e apresentem desafios de pesquisa, o estudo alerta para os riscos de ignorar os desafios de segurança iminentes.

Os autores concluem que “a natureza transformadora da AGI tem potencial para proporcionar benefícios incríveis, mas também para causar danos severos”. Por isso, afirmam que é fundamental que os desenvolvedores de IA de ponta planejem de forma proativa medidas para mitigar esses riscos.

No entanto, alguns especialistas discordam dos pressupostos do artigo. Heidy Khlaaf, cientista-chefe de IA do instituto sem fins lucrativos AI Now, declarou que o conceito de AGI é vago demais para ser avaliado de maneira rigorosa e científica. Já o pesquisador Matthew Guzdial, professor assistente da Universidade de Alberta, demonstrou ceticismo em relação à viabilidade da melhoria recursiva da IA na atualidade, afirmando que “nunca vimos evidências de que isso funcione”.

Sandra Wachter, pesquisadora de tecnologia e regulação em Oxford, ressalta que uma preocupação mais realista é o risco de a IA se reforçar por meio de saídas imprecisas. Com a proliferação de conteúdos gerados por IA na internet e a substituição gradual de dados autênticos, os modelos passam a aprender a partir de suas próprias produções – frequentemente repletas de imprecisões e “alucinações” – o que pode levar a uma disseminação constante de inverdades apresentadas de forma bastante convincente.

Embora o artigo do DeepMind seja abrangente, dificilmente encerrará o debate sobre a viabilidade da AGI e identificará quais áreas da segurança em IA devem ser as prioritárias.