A Microsoft e o Project Gutenberg usaram tecnologias de IA para criar mais de 5.000 audiolivros gratuitos com vozes sintéticas de alta qualidade.
Para o projeto, os pesquisadores combinaram avanços em aprendizado de máquina, seleção automática de texto (quais textos são lidos em voz alta, quais não são) e sistemas de síntese de fala com som natural.
Primeiro, eles desenvolveram um algoritmo que entende a estrutura de um e-book baseado em HTML e distingue entre o texto principal e elementos sem importância, como notas de rodapé, números de página ou tabelas.
Essa chamada análise é seguida pela conversão real de texto em fala (text-to-speech, TTS). Neste projeto, foram utilizados o WaveNet, Tacotron e FastSpeech, em particular, que são capazes de produzir resultados de fala naturais e semelhantes aos humanos.
Além disso, a equipe desenvolveu um sistema capaz de distinguir entre narrador e diálogo, e aqui até mesmo entre personagens individuais e suas emoções, e adaptar a voz gerada de acordo.
Toda a cadeia de processos é executada na estrutura de aprendizado de máquina SynapseML, que é projetada para dividir as várias tarefas e processá-las em paralelo.
“Acreditamos que este trabalho tem o potencial de melhorar muito a acessibilidade e a disponibilidade dos audiolivros”, escreve a equipe. Ouça por si mesmo como soa “How to Tell a Story, and Other Essays” de Mark Twain.
Faça sua voz narrar um audiolivro
Para a apresentação da conferência, a equipe também desenvolveu uma abordagem de conversão de texto em fala que pode capturar o caráter da própria voz de um usuário a partir de algumas frases gravadas e transferi-la para a narração do audiolivro.
Isso permite que os usuários selecionem um livro da biblioteca digital e o leiam para eles em sua voz – ou na voz de sua escolha, se tiverem arquivos de áudio. Ainda não está claro se esse serviço estará disponível além da conferência, mas parece improvável dados os custos potenciais.
No total, o projeto coletou mais de 35 mil horas de dados em áudio sobre literatura clássica, peças de teatro, biografias e muito mais, lidos “em uma voz clara e consistente”.
Esse conjunto de dados por si só pode ser útil para outros projetos de IA. A equipe de pesquisa pretende disponibilizar todos os dados de áudio como código aberto sem restrições.
Os audiolivros estão disponíveis no Spotify, Apple Podcasts ou Google Podcasts. Mais informações sobre o projeto estão disponíveis no site oficial.
O Project Gutenberg é uma biblioteca digital gratuita acessível através da Internet. É criado por voluntários. Mais de 70 mil e-books estão disponíveis para leitura e download gratuito no site do projeto.