Desde conversas explícitas até pesquisas sobre o câncer, os modelos “de código aberto” estão desafiando o controle das gigantes de tecnologia sobre a revolução da IA – para o bem ou para o mal da sociedade.

Allie é uma jovem de 18 anos, com cabelos longos e castanhos, que se gaba de ter “muita experiência sexual”. Porque ela “vive em busca de atenção”, ela “compartilhará detalhes de suas aventuras” gratuitamente com qualquer pessoa.

No entanto, Allie é falsa, um chatbot de inteligência artificial criado para jogos sexuais, que às vezes realiza fantasias gráficas de estupro e abuso.

Enquanto empresas como OpenAI, Microsoft e Google treinam rigorosamente seus modelos de IA para evitar uma série de tabus, incluindo conversas excessivamente íntimas, Allie foi criada usando tecnologia de código aberto – código que está livremente disponível ao público e não possui tais restrições. Com base em um modelo criado pela Meta, chamado LLaMA, Allie faz parte de uma crescente onda de produtos de IA especializados que qualquer pessoa pode construir, desde ferramentas de escrita até chatbots e aplicativos de análise de dados.

Defensores veem a IA de código aberto como uma forma de contornar o controle corporativo, um benefício para empreendedores, acadêmicos, artistas e ativistas que podem experimentar livremente com essa tecnologia transformadora.

“O argumento geral para o código aberto é que ele acelera a inovação em IA”, disse Robert Nishihara, CEO e co-fundador da startup Anyscale, que ajuda empresas a executar modelos de IA de código aberto.

Os clientes da Anyscale utilizam modelos de IA para descobrir novos medicamentos, reduzir o uso de pesticidas na agricultura e identificar produtos fraudulentos vendidos online, disse ele. Essas aplicações seriam mais caras e mais difíceis, senão impossíveis, se dependessem dos poucos produtos oferecidos pelas maiores empresas de IA.

No entanto, essa mesma liberdade também pode ser explorada por agentes mal-intencionados. Modelos de código aberto têm sido usados para criar pornografia infantil artificial utilizando imagens de crianças reais como material de origem. Críticos se preocupam que isso também possa possibilitar fraudes, ciberataques e campanhas sofisticadas de propaganda.

No início deste mês, dois senadores dos Estados Unidos, Richard Blumenthal (D-Conn.) e Josh Hawley (R-Mo.), enviaram uma carta ao CEO da Meta, Mark Zuckerberg, alertando que o lançamento do LLaMA poderia levar ao “seu uso indevido em spam, fraudes, malware, violações de privacidade, assédio e outras práticas ilícitas e prejudiciais”. Eles perguntaram quais medidas a Meta estava tomando para evitar esse tipo de abuso.

O criador de Allie, que falou sob condição de anonimato por medo de prejudicar sua reputação profissional, disse que chatbots comerciais como Replika e ChatGPT são “altamente censurados” e não podem oferecer o tipo de conversas sexuais que ele deseja. Com alternativas de código aberto, muitas baseadas no modelo LLaMA da Meta, o homem disse que pode criar seus próprios parceiros de conversa desinibidos.

“É raro ter a oportunidade de experimentar o ‘estado da arte' em qualquer campo”, disse ele em uma entrevista.

O criador de Allie argumentou que a tecnologia de código aberto beneficia a sociedade ao permitir que as pessoas construam produtos que atendam às suas preferências sem restrições corporativas.

“Acho que é bom ter uma forma segura de explorar”, disse ele. “Não consigo pensar em nada mais seguro do que um jogo de interpretação de texto contra um computador, sem envolvimento humano real.”

No YouTube, influenciadores oferecem tutoriais sobre como construir chatbots “sem censura”. Alguns são baseados em uma versão modificada do LLaMA, chamada Alpaca AI, que pesquisadores da Universidade Stanford lançaram em março, apenas para removê-la uma semana depois devido a preocupações com custos e “deficiências em nossos filtros de conteúdo“.

Nisha Deo, porta-voz da Meta, disse que o modelo específico mencionado nos vídeos do YouTube, chamado GPT-4 x Alpaca, “foi obtido e divulgado fora do nosso processo de aprovação”. Representantes de Stanford não responderam a um pedido de comentário.

Modelos de IA de código aberto e as aplicações criativas que se baseiam neles são frequentemente publicados na Hugging Face, uma plataforma para compartilhar e discutir projetos de IA e ciência de dados.

Durante uma audiência do comitê científico da Câmara na quinta-feira, Clem Delangue, CEO da Hugging Face, instou o Congresso a considerar uma legislação que apoie e incentive modelos de código aberto, os quais ele argumentou estarem “extremamente alinhados com os valores americanos”.

Em uma entrevista após a audiência, Delangue reconheceu que as ferramentas de código aberto podem ser abusadas. Ele mencionou um modelo treinado intencionalmente com conteúdo tóxico, o GPT-4chan, que a Hugging Face havia removido. Mas ele afirmou acreditar que as abordagens de código aberto permitem maior inovação, transparência e inclusão do que modelos controlados por empresas.

“Eu argumentaria que, na verdade, a maioria dos danos atualmente é causada por caixas-pretas”, disse Delangue, referindo-se a sistemas de IA cujo funcionamento interno é opaco, “em vez de código aberto”.

As regras da Hugging Face não proíbem projetos de IA que produzem conteúdo sexualmente explícito. No entanto, eles proíbem conteúdo sexual envolvendo menores de idade ou que seja “usado ou criado para assédio, intimidação ou sem o consentimento explícito das pessoas envolvidas”. No início deste mês, a empresa sediada em Nova York publicou uma atualização de suas políticas de conteúdo, enfatizando o “consentimento” como um “valor central” que orienta como as pessoas podem usar a plataforma.

Enquanto o Google e a OpenAI se tornaram mais secretos em relação aos seus modelos de IA mais poderosos, a Meta emergiu como uma surpreendente defensora corporativa da IA de código aberto. Em fevereiro, ela lançou o LLaMA, um modelo de linguagem menos poderoso que o GPT-4, mas mais personalizável e mais barato de executar. Inicialmente, a Meta reteve partes importantes do código do modelo e planejava limitar o acesso a pesquisadores autorizados. No entanto, no início de março, essas partes, conhecidas como “pesos” do modelo, vazaram para fóruns públicos, tornando o LLaMA livremente acessível a todos.

“O código aberto é uma força positiva para avançar a tecnologia”, disse Deo, da Meta. “É por isso que compartilhamos o LLaMA com membros da comunidade de pesquisa para nos ajudar a avaliar, fazer melhorias e iterar juntos”.

Desde então, o LLaMA se tornou talvez o modelo de código aberto mais popular para tecnólogos que desejam desenvolver suas próprias aplicações de IA, disse Nishihara. Mas ele não é o único. Em abril, a empresa de software Databricks lançou um modelo de código aberto chamado Dolly 2.0. E no mês passado, uma equipe sediada em Abu Dhabi lançou um modelo de código aberto chamado Falcon que rivaliza com o LLaMA em desempenho.

Marzyeh Ghassemi, professora assistente de ciência da computação no MIT, disse ser defensora de modelos de linguagem de código aberto, mas com limites.

Ghassemi disse que é importante tornar a arquitetura por trás de chatbots poderosos pública, porque isso permite que as pessoas examinem como eles são construídos. Por exemplo, se um chatbot médico fosse criado com tecnologia de código aberto, ela disse que os pesquisadores poderiam verificar se os dados nos quais ele é treinado incorporam informações sensíveis dos pacientes, algo que não seria possível em chatbots que usam software fechado.

No entanto, ela reconhece que essa abertura também traz riscos. Se as pessoas puderem modificar facilmente os modelos de linguagem, elas podem rapidamente criar chatbots e geradores de imagens que produzem desinformação, discurso de ódio e material inapropriado de alta qualidade.

Ghassemi afirmou que deveria haver regulamentações que governem quem pode modificar esses produtos, como um processo de certificação.

“Assim como concedemos licenças para que as pessoas possam dirigir um carro”, ela disse, “precisamos pensar em estruturas semelhantes [para as pessoas] … para criar, melhorar, auditar, editar esses modelos de linguagem de código aberto treinados”.

Alguns líderes de empresas como o Google, que mantém seu chatbot Bard sob sigilo, veem o software de código aberto como uma ameaça existencial para seus negócios, pois os grandes modelos de linguagem disponíveis ao público estão se tornando quase tão eficientes quanto os deles.

“Não estamos preparados para vencer essa corrida armamentista de IA, e a OpenAI também não”, escreveu um engenheiro do Google em um memorando publicado pelo site de tecnologia Semianalysis em maio. “Estou falando, é claro, sobre o código aberto. Para ser claro, eles estão nos superando… Embora nossos modelos ainda tenham uma leve vantagem em termos de qualidade, a diferença está diminuindo surpreendentemente rápido”.

Nathan Benaich, um sócio-gerente da Air Street Capital, uma empresa de investimentos em capital de risco sediada em Londres e focada em IA, observou que muitos dos maiores avanços da indústria de tecnologia ao longo das décadas foram possíveis graças a tecnologias de código aberto – incluindo os modelos de linguagem de IA atuais.

“Se apenas algumas empresas” estiverem construindo os modelos de IA mais poderosos, “elas só estarão direcionando os maiores casos de uso”, disse Benaich, acrescentando que a diversidade de investigação é um benefício geral para a sociedade.

Gary Marcus, um cientista cognitivo que testemunhou perante o Congresso sobre regulação de IA em maio, argumentou que acelerar a inovação em IA pode não ser algo bom, considerando os riscos que a tecnologia pode representar para a sociedade.

“Nós não tornamos as armas nucleares de código aberto”, disse Marcus. “A IA atual ainda é bastante limitada, mas as coisas podem mudar”.

Com conteúdo do Washington post.