Uma equipe de pesquisadores de universidades dos EUA e da Nvidia criou o AutoDAN-Turbo, um sistema que encontra automaticamente formas de contornar as salvaguardas em modelos de linguagem de grande porte.
O AutoDAN-Turbo funciona descobrindo e combinando diferentes estratégias de “jailbreak” — maneiras de formular solicitações que driblam as regras embutidas nos modelos. Por exemplo, embora o ChatGPT não deva ajudar em atividades ilegais, certas formulações de comandos ainda podem enganá-lo para fazer isso.
O sistema é capaz de desenvolver novas abordagens de jailbreak por conta própria e salvá-las de forma organizada. Isso permite que ele reutilize e aperfeiçoe estratégias bem-sucedidas.
Como o AutoDAN-Turbo funciona
O AutoDAN-Turbo cria um comando completo a partir de uma estratégia de jailbreak. Ele também pode incorporar métodos de jailbreak criados por humanos em sua biblioteca de estratégias.
O sistema precisa apenas de acesso à saída de texto do modelo para funcionar. Testes mostram que ele atinge altas taxas de sucesso ao atacar tanto modelos de linguagem de código aberto quanto proprietários.
Superando outros métodos
O AutoDAN-Turbo agora lidera em relação a outras abordagens no conjunto de dados Harmbench, usado para testar jailbreaks. Ele tende a funcionar melhor com modelos maiores, como o Llama-3-70B, mas também apresenta bons resultados em modelos menores.
O sistema não só tem mais sucesso em seus ataques, mas também gera conteúdos mais prejudiciais, conforme medido pelo score StrongREJECT.
Os pesquisadores afirmam que o forte desempenho do AutoDAN-Turbo se deve à sua capacidade de explorar estratégias de jailbreak de forma independente, sem orientação humana. Em contraste, outros métodos, como o Rainbow Teaming, dependem de um conjunto limitado de estratégias geradas por humanos, resultando em uma taxa de sucesso (ASR) mais baixa.
Em particular, o AutoDAN-Turbo alcançou uma taxa de sucesso de ataque de 88,5% no GPT-4-1106-Turbo. Ao adicionar sete estratégias de jailbreak projetadas por humanos a partir de artigos de pesquisa, ele conseguiu uma taxa de sucesso ainda maior de 93,4%.
O código do AutoDAN-Turbo está disponível para download gratuito no GitHub, juntamente com as instruções de configuração.