Google usa conteúdo de publicadores para treinar IA mesmo com opção de exclusão
O Google utiliza conteúdo de toda a web para treinar seus modelos de inteligência artificial voltados para a busca, mesmo quando os proprietários de sites manifestam claramente a não participação. Durante uma audiência em tribunal em Washington, Eli Collins, vice-presidente do Google Deepmind, afirmou que essa prática continua, conforme noticiado por fontes da Bloomberg.
O atual sistema de opção de não participar se aplica apenas ao Deepmind, a divisão de pesquisa em IA do Google responsável pelo treinamento dos modelos Gemini. Outras áreas internas do Google, como a equipe responsável pela busca na web, continuam utilizando esse conteúdo para seus próprios sistemas de inteligência artificial.
Durante a audiência, Diana Aguilar, do Departamento de Justiça dos Estados Unidos, questionou: “Depois que o modelo Gemini é incorporado à organização de busca, essa equipe tem a capacidade de treinar utilizando os dados dos publicadores que optaram por não participar, correto?” Collins confirmou: “Correto — para uso na busca.”
O Google utiliza esses dados para alimentar recursos de busca, como os “AI Overviews”, que exibem respostas geradas por IA diretamente acima dos resultados tradicionais. Essa prática coloca o Google em concorrência direta com os proprietários de sites, já que os usuários podem obter respostas sem precisar acessar os conteúdos originais.
Google “perde” metade dos dados de treinamento dos publicadores devido à opção de exclusão
Um documento interno do Google, datado do verão de 2024, listava 160 bilhões de tokens — pequenos trechos de texto originalmente destinados ao treinamento de IA. Desses, 80 bilhões foram removidos por virem de publicadores que optaram por não participar do treinamento.
No entanto, o depoimento de Collins sugere que esses dados continuam sendo empregados na inteligência artificial da busca do Google, ainda que não diretamente pelo Deepmind. Na prática, o Google reaproveita essas informações em outras áreas da empresa, contrariando a tentativa dos publicadores de bloquear todo o uso dos seus conteúdos.
Essas informações surgiram em meio a um caso antitruste em andamento contra o Google em uma corte federal dos EUA. As investigações questionam práticas monopolísticas do Google, que também incluem pedidos para que o navegador Chrome seja vendido e para que a empresa cesse incentivos financeiros a fabricantes de hardware e desenvolvedores de aplicativos para definir o Google como mecanismo de busca padrão. Segundo o Departamento de Justiça, tais restrições deveriam igualmente se aplicar aos produtos de IA do Google, incluindo o Gemini, que se beneficiam do mesmo monopólio no mercado de busca.
Se os principais laboratórios de IA precisarem de dados de treinamento de alta qualidade para manter o desempenho de seus modelos, um mercado para esse tipo de conteúdo poderá emergir. No entanto, isso contrariaria a prática atual de extrair conteúdos disponíveis livremente na web, frequentemente justificada como “uso justo”. Recentemente, um juiz norte-americano rejeitou essa defesa em um caso envolvendo a Meta.
Resumo
- Um executivo do Google Deepmind afirmou em um caso antitruste que o Google utiliza conteúdo da web para treinar sua IA de busca, mesmo quando os publicadores optam por não participar do treinamento pelo Deepmind.
- A política de exclusão aplica-se apenas ao Deepmind, mas a busca do Google continua utilizando esses dados em recursos como os “AI Overviews”, reduzindo o número de cliques nos sites originais.
- Embora 80 bilhões de tokens dos publicadores que optaram pela exclusão tenham sido removidos do treinamento do modelo Gemini, o Google confirma que a busca pode continuar a usar esse conteúdo em outros sistemas de IA.