Plataforma de Podcasts Podcastle lança modelo de conversão de texto em fala com mais de 450 vozes de IA

A plataforma de gravação e edição de podcasts Podcastle agora se une a outras empresas na corrida pela conversão de texto em fala com tecnologia de IA, ao lançar seu próprio modelo chamado Asyncflow v1.0. Uma API para desenvolvedores também estará disponível, permitindo a integração direta do modelo em seus aplicativos.

Com o novo modelo, a empresa oferece mais de 450 vozes de IA capazes de narrar textos. A startup desenvolveu sua tecnologia de forma que os custos de treinamento e de inferência sejam baixos, o que lhe confere uma vantagem competitiva.

Com essa iniciativa, o Podcastle junta-se a outras startups – como ElevenLabs, Speechify e WellSaid – que desenvolveram modelos e tecnologias de IA capazes de transformar qualquer texto em clipes de voz narrados por inteligência artificial. Essa inovação atende a diversas áreas, como marketing, publicidade, criação de conteúdo, educação e treinamento corporativo.

O fundador do Podcastle, Arto Yeritsyan, explicou que a empresa sempre desejou criar um modelo de conversão de texto em fala, mas que os altos custos de treinamento e as exigências de dados representavam grandes desafios. “Sempre quisemos construir um modelo robusto de conversão de texto em fala desde o início. No entanto, os custos de desenvolvimento eram muito altos. Graças aos recentes avanços dos grandes modelos de linguagem, conseguimos, no ano passado, dar um salto que nos permitiu construir um modelo de voz de alta qualidade sem precisar de uma enorme quantidade de dados”, afirmou Yeritsyan.

A empresa também contou com o apoio de uma captação de recursos de US$ 13,5 milhões na Série A realizada no ano passado.

Yeritsyan comentou que, enquanto o Podcastle cobra cerca de US$ 40 por 500 minutos de conversão, a ElevenLabs pratica o valor de US$ 99 para a mesma quantidade.

A funcionalidade de clonagem de voz do Podcastle também está sendo aprimorada para tornar o processo de treinamento mais ágil. Antes, era necessário ler aproximadamente 70 frases para a criação de uma cópia da voz; agora, bastam alguns segundos de gravação para que a clonagem seja efetivada. O novo processo utilizou, inclusive, a ferramenta Magic Dust AI do Podcastle, lançada no ano passado, para melhorar a qualidade da gravação.

Screenshot 2025 02 19 at 7.56.28PM

Em testes realizados, a voz criada com o novo processo apresentou um tom um pouco robótico, embora tenha conseguido imitar o tom original. A empresa afirmou que, com o tempo, o recurso será aprimorado, permitindo inclusive treinar diferentes amostras da voz para gerar resultados variados.

Além dos custos reduzidos, a consolidação de ferramentas de áudio, vídeo, podcasts e narração com tecnologia de IA em um site redesenhado proporcionará uma vantagem competitiva. Embora a maioria dos usuários utilize o Podcastle para trabalhar com conteúdo em áudio, a demanda por vídeo também vem crescendo.