Avaliação de riscos como ponto de partida

Mais de 100 especialistas de onze países se reuniram na Conferência de IA de Cingapura em abril de 2025 para definir prioridades comuns sobre a segurança técnica dos sistemas de IA. O resultado foi o recém-divulgado Consenso de Cingapura sobre Prioridades Globais de Pesquisa em Segurança de IA, voltado exclusivamente para a IA de propósito geral – sistemas que podem lidar com uma ampla variedade de tarefas cognitivas, incluindo modelos de linguagem, modelos multimodais e agentes autônomos. Questões políticas foram propositalmente deixadas de fora.

O relatório segmenta a área de pesquisa em segurança técnica de IA em três tópicos: avaliação de riscos, construção de sistemas confiáveis e controle após a implantação. A meta é criar um “ecossistema confiável” que incentive a inovação sem desconsiderar os riscos sociais.

A primeira ênfase recai sobre métodos para medir e prever riscos oriundos dos sistemas de IA. Isso inclui técnicas padronizadas de auditoria, benchmarks para capacidades perigosas e maneiras de avaliar os impactos sociais. Um dos desafios abertos é o desenvolvimento de uma “metrologia” para riscos de IA – métodos de medição precisos e repetíveis para definir claramente os limites de risco.

Um ponto central é o que o relatório chama de “dilema das evidências”: esperar demais por provas concretas pode fazer com que os riscos saiam de controle, enquanto agir prematuramente pode resultar em intervenções desnecessárias ou ineficazes. O documento recomenda a aplicação de análises prospectivas de riscos, semelhantes às técnicas utilizadas em segurança nuclear e aviação, como análises de cenários, avaliações probabilísticas de risco e análises de “nó de gravata”.

São necessárias mais pesquisas para identificar precocemente capacidades perigosas, como aquelas relacionadas a ataques cibernéticos ou armas biológicas, além de estudos que verifiquem se os sistemas de IA aumentam significativamente a eficácia de usuários mal-intencionados.

Sistemas devem garantir segurança, não apenas prometê-la

A segunda área de foco consiste no desenvolvimento de sistemas de IA confiáveis, robustos e em conformidade com especificações. Isso envolve a definição precisa do comportamento desejado (especificação), sua implementação técnica (design) e, por fim, a verificação de que o sistema realmente cumpre o que se espera dele.

O relatório destaca desafios contínuos na formulação de objetivos humanos: mesmo erros simples na formulação podem levar a manipulações indesejadas, enganos ou comportamentos de busca por poder indesejados. Modelar comportamentos em cenários com múltiplos stakeholders ou com preferências de usuários conflitantes ainda é uma tarefa complexa e difícil de se realizar com confiabilidade.

Nível sistêmico, o documento aponta para a necessidade de métodos de treinamento robustos que defendam os sistemas contra ataques, melhores técnicas para edição direcionada de modelos e o desenvolvimento de modelos de IA com capacidade limitada, sem agentes autônomos, específicos para determinados domínios, de forma a prevenir estruturalmente comportamentos perigosos.

A meta a longo prazo é construir sistemas de IA com segurança garantida, por meio de síntese de programas verificáveis ou modelos formais do mundo com efeitos ambientais comprováveis – abordagens que ainda se encontram em estágio inicial.

Supervisão após a implantação

A terceira área refere-se ao controle dos sistemas de IA depois de implantados. Isso inclui ferramentas clássicas de monitoramento e intervenção, como vigilância baseada em hardware, botões de desligamento e protocolos de emergência.

Especial atenção é dada aos sistemas altamente capazes, que podem tentar ativamente contornar os mecanismos de controle. Para esses casos, o relatório recomenda pesquisas sobre supervisão escalável – como debates entre sistemas de IA ou estruturas de “supervisão aninhada” – além de abordagens de “corrigibilidade”, projetadas para manter os sistemas passíveis de correção e aptos a serem desligados.

Outras medidas sugeridas envolvem o monitoramento do ecossistema mais amplo de IA: rastreamento de modelos, uso de marcas d’água, construção de uma infraestrutura de registro de dados e padronização na autenticação dos agentes de IA, para identificar e rastrear deepfakes ou modelos open-source perigosos de forma mais eficaz.

Cooperação em um cenário competitivo

Um dos argumentos centrais do relatório é que determinadas medidas de segurança são de interesse próprio para todos os stakeholders, mesmo quando estes são concorrentes diretos. Um exemplo destacado é a definição de limites técnicos de risco: se um sistema for comprovado em testes como facilitador de ataques cibernéticos, isso pode servir de gatilho para a implementação de contramedidas. Empresas concorrentes poderiam, em conjunto, estabelecer tais limites.