Microsoft y Project Gutenberg utilizaron tecnologías de IA para crear más de 5,000 audiolibros gratuitos con voces sintéticas de alta calidad.
Para el proyecto, los investigadores combinaron avances en aprendizaje automático, selección automática de texto (qué textos se leen en voz alta y cuáles no) y sistemas de síntesis de voz con sonido natural.
Primero, desarrollaron un algoritmo que comprende la estructura de un libro electrónico basado en HTML y distingue entre el texto principal y elementos no importantes, como notas al pie, números de página o tablas.
Esta análisis se sigue de la conversión real de texto a voz (text-to-speech, TTS). En este proyecto, se utilizaron WaveNet, Tacotron y FastSpeech, en particular, que son capaces de producir resultados de voz naturales y similares a los humanos.
Además, el equipo desarrolló un sistema capaz de distinguir entre narrador y diálogo, e incluso entre personajes individuales y sus emociones, y adaptar la voz generada en consecuencia.
Todo el proceso se lleva a cabo en la estructura de aprendizaje automático SynapseML, diseñada para dividir las diversas tareas y procesarlas en paralelo.
«Creemos que este trabajo tiene el potencial de mejorar significativamente la accesibilidad y la disponibilidad de los audiolibros», escribe el equipo. Escucha por ti mismo cómo suena «How to Tell a Story, and Other Essays» de Mark Twain.
Haz que tu voz narre un audiolibro
Para la presentación en la conferencia, el equipo también desarrolló un enfoque de conversión de texto a voz que puede capturar el carácter de la propia voz de un usuario a partir de algunas frases grabadas y transferirla a la narración del audiolibro.
Esto permite a los usuarios seleccionar un libro de la biblioteca digital y que se les lea en su propia voz, o en la voz que elijan, si tienen archivos de audio. Aún no está claro si este servicio estará disponible más allá de la conferencia, pero parece improbable debido a los posibles costos.
En total, el proyecto recopiló más de 35,000 horas de datos de audio sobre literatura clásica, obras de teatro, biografías y más, leídos «en una voz clara y consistente».
Este conjunto de datos en sí mismo puede ser útil para otros proyectos de IA. El equipo de investigación tiene la intención de poner todos los datos de audio a disposición como código abierto sin restricciones.
Los audiolibros están disponibles en Spotify, Apple Podcasts o Google Podcasts. Más información sobre el proyecto está disponible en el sitio web oficial.
Project Gutenberg es una biblioteca digital gratuita accesible a través de Internet. Es creada por voluntarios. Más de 70,000 libros electrónicos están disponibles para leer y descargar de forma gratuita en el sitio web del proyecto.