Microsoft treinou parcialmente seus modelos MAI com dados da web não licenciados

A Microsoft treinou parcialmente seus novos modelos MAI com dados da web não licenciados. Um artigo técnico revela que a empresa utilizou o Common Crawl, entre outras fontes, conforme apontado por Simon Willison. Anteriormente, a Microsoft afirmava que os modelos MAI eram treinados apenas com dados “de qualidade empresarial, limpos e com licença comercial”.

microsoft mai thinking

Como outras empresas de inteligência artificial que coletam dados da web, a Microsoft provavelmente se apoia no uso justo. O documento descreve os dados como uma “mistura de dados disponíveis publicamente e com licença, gerados por humanos”. Para os dados extraídos da web, a empresa informa utilizar “um crawler proprietário que respeita o Robots Exclusion Protocol (robots.txt) e os controles de meta-tag e HTML relacionados, permitindo que os proprietários dos sites administrem como o conteúdo em seus sites é acessado e utilizado.”

Isso transfere a responsabilidade de proteger o conteúdo para os proprietários dos sites, assumindo que quem não adota medidas de segurança básicas, como trancar a porta, consente com o acesso irrestrito. O uso justo continua sendo um tema controverso, e os tribunais ainda estão decidindo sobre a questão. Em resumo, a Microsoft realiza a mesma prática adotada por outras empresas de IA, mas promove seus dados de treinamento como se fossem especialmente “limpos” – o que não condiz com a realidade.