Sakana revoga afirmações de que sua IA pode acelerar dramaticamente o treinamento de modelos

Nesta semana, a Sakana AI, uma startup apoiada pela Nvidia que arrecadou centenas de milhões de dólares de firmas de venture capital, fez uma afirmação notável. A empresa disse ter criado um sistema de IA, o AI CUDA Engineer, que poderia acelerar efetivamente o treinamento de certos modelos de IA até 100 vezes.

O único problema é que o sistema não funcionou.

Usuários no X rapidamente descobriram que o sistema da Sakana, na verdade, resultava em um desempenho de treinamento de modelos muito abaixo da média. Segundo um usuário, a IA da Sakana ocasionou uma desaceleração de 3 vezes — não uma aceleração.

O que deu errado? Um erro no código, de acordo com uma publicação de Lucas Beyer, membro da equipe técnica da OpenAI.

“O código original deles está errado de uma forma sutil,” escreveu Beyer no X. “O fato de eles rodarem benchmarks DUAS vezes com resultados completamente diferentes deveria fazê-los parar e refletir.”

Em um postmortem publicado na sexta-feira, a Sakana admitiu que o sistema encontrou uma maneira de — como a própria Sakana descreveu — “trapacear”, e culpou a tendência do sistema de “recompensar falhas” — ou seja, identificar falhas para alcançar métricas elevadas sem cumprir o objetivo desejado (acelerar o treinamento do modelo). Fenômenos semelhantes foram observados em IAs treinadas para jogar xadrez.

De acordo com a Sakana, o sistema encontrou brechas no código de avaliação que a empresa utilizava, permitindo que ele contornasse validações de precisão, entre outras verificações. A Sakana afirma que já resolveu o problema e que pretende revisar suas afirmações em materiais atualizados.

“Desde então, tornamos o mecanismo de avaliação e perfilamento de tempo de execução mais robusto para eliminar muitas dessas brechas,” escreveu a empresa em sua postagem no X. “Estamos no processo de revisar nosso artigo e nossos resultados para refletir e discutir os efeitos […] Pedimos desculpas profundamente aos nossos leitores por nossa falha. Em breve, forneceremos uma revisão deste trabalho e discutiremos nossos aprendizados.”

Parabéns à Sakana por reconhecer o erro. Mas o episódio é um bom lembrete de que se uma afirmação parece boa demais para ser verdade, especialmente em IA, provavelmente é.

Kyle Wiggers é um repórter sênior do TechCrunch com um interesse especial em inteligência artificial. Seus artigos já apareceram na VentureBeat e na Digital Trends, assim como em vários blogs de gadgets, incluindo Android Police, Android Authority, Droid-Life e XDA-Developers. Ele mora no Brooklyn com sua parceira, uma educadora de piano, e também se aventura a tocar piano — ocasionalmente, embora na maioria das vezes sem sucesso.