A startup de IA Stability AI lançou o Stable Audio Open Small, um modelo de geração de áudio estéreo que a empresa afirma ser o mais rápido do mercado – e otimizado para rodar em smartphones.
O Stable Audio Open Small é fruto de uma colaboração entre a Stability AI e a Arm, fabricante de chips presentes em tablets, celulares e outros dispositivos móveis. Enquanto diversos aplicativos com IA, como Suno e Udio, podem gerar áudio, a maioria depende de processamento em nuvem, impossibilitando seu uso offline.
A empresa destaca que o conjunto de treinamento do Stable Audio Open Small é composto exclusivamente por músicas das bibliotecas de áudio royalty-free Free Music Archive e Freesound, diferentemente dos conjuntos de treinamento de outros aplicativos que, supostamente, incluem conteúdo protegido por direitos autorais, representando riscos de propriedade intelectual.
Com 341 milhões de parâmetros, o modelo foi otimizado para funcionar em CPUs Arm. Projetado para gerar rapidamente trechos curtos de áudio e efeitos sonoros (como batidas e riffs de instrumentos), o Stable Audio Open Small é capaz de produzir até 11 segundos de áudio em um smartphone em menos de 8 segundos, segundo a Stability AI.
Apesar de suas capacidades, o modelo possui limitações. Ele suporta apenas comandos em inglês e, conforme descrito em sua documentação, não consegue gerar vocais realistas ou canções de alta qualidade. Além disso, seu desempenho não é uniforme entre os estilos musicais, reflexo do viés ocidental presente em seus dados de treinamento.
Outro aspecto relevante para desenvolvedores diz respeito aos termos de uso. O Stable Audio Open Small é gratuito para pesquisadores, entusiastas e empresas com receita anual inferior a US$ 1 milhão, enquanto organizações e desenvolvedores que faturam mais de US$ 1 milhão precisam adquirir uma licença empresarial pela Stability AI.
Em meio a desafios recentes, a Stability AI, conhecida pelo modelo de geração de imagens Stable Diffusion, vem passando por uma reestruturação: a empresa contratou um novo CEO, incorporou ao seu conselho de administração o diretor de Titanic, James Cameron, e lançou diversos novos modelos de geração de imagens, em um movimento para recuperar a confiança do mercado e reverter situações financeiras conturbadas.