Inteligência Artificial, Notícias

A Microsoft treinou seus modelos MAI com dados da web não licenciados, apesar de ter prometido “dados de nível empresarial, limpos e comercialmente licenciados”.

Atualizado em 05/06/2026

Faça parte da comunidade

Entre para nossa lista e receba conteúdos exclusivos

Microsoft treinou parcialmente seus modelos MAI com dados da web não licenciados

A Microsoft treinou parcialmente seus novos modelos MAI com dados da web não licenciados. Um artigo técnico revela que a empresa utilizou o Common Crawl, entre outras fontes, conforme apontado por Simon Willison. Anteriormente, a Microsoft afirmava que os modelos MAI eram treinados apenas com dados “de qualidade empresarial, limpos e com licença comercial”.

Como outras empresas de inteligência artificial que coletam dados da web, a Microsoft provavelmente se apoia no uso justo. O documento descreve os dados como uma “mistura de dados disponíveis publicamente e com licença, gerados por humanos”. Para os dados extraídos da web, a empresa informa utilizar “um crawler proprietário que respeita o Robots Exclusion Protocol (robots.txt) e os controles de meta-tag e HTML relacionados, permitindo que os proprietários dos sites administrem como o conteúdo em seus sites é acessado e utilizado.”

Isso transfere a responsabilidade de proteger o conteúdo para os proprietários dos sites, assumindo que quem não adota medidas de segurança básicas, como trancar a porta, consente com o acesso irrestrito. O uso justo continua sendo um tema controverso, e os tribunais ainda estão decidindo sobre a questão. Em resumo, a Microsoft realiza a mesma prática adotada por outras empresas de IA, mas promove seus dados de treinamento como se fossem especialmente “limpos” – o que não condiz com a realidade.

André Lug

Fundador da Iglu Online e escritor do blog André Lug. Como especialista em Inteligência Artificial e criação de conteúdo, traz conteúdos sobre IA, produtividade e empreendedorismo.

A Microsoft treinou seus modelos MAI com dados da web não licenciados, apesar de ter prometido “dados de nível empresarial, limpos e comercialmente licenciados”.

Entre para nossa lista e receba conteúdos exclusivos

Microsoft treinou parcialmente seus modelos MAI com dados da web não licenciados

André Lug

Deixe um comentário Cancelar resposta

Inscreva-se em nossa newsletter

por onde andamos