Microsoft et Project Gutenberg ont utilisé des technologies d’IA pour créer plus de 5 000 livres audio gratuits avec des voix synthétiques de haute qualité.
Pour ce projet, les chercheurs ont combiné des avancées en apprentissage automatique, en sélection automatique de texte (quels textes sont lus à haute voix, lesquels ne le sont pas) et en systèmes de synthèse vocale avec un son naturel.
Tout d’abord, ils ont développé un algorithme qui comprend la structure d’un livre électronique basé sur HTML et fait la distinction entre le texte principal et les éléments non pertinents tels que les notes de bas de page, les numéros de page ou les tableaux.
Cette analyse, appelée analyse, est suivie de la véritable conversion du texte en parole (text-to-speech, TTS). Dans ce projet, WaveNet, Tacotron et FastSpeech ont été utilisés en particulier, capables de produire des résultats de parole naturels et humains.
De plus, l’équipe a développé un système capable de faire la distinction entre le narrateur et le dialogue, et même entre les personnages individuels et leurs émotions, et d’adapter la voix générée en conséquence.
Tout le processus est exécuté dans le cadre de l’apprentissage automatique SynapseML, conçu pour diviser les différentes tâches et les traiter en parallèle.
« Nous pensons que ce travail a le potentiel d’améliorer considérablement l’accessibilité et la disponibilité des livres audio », écrit l’équipe. Écoutez par vous-même comment « How to Tell a Story, and Other Essays » de Mark Twain sonne.
Faites votre voix narrer un livre audio
Pour la présentation de la conférence, l’équipe a également développé une approche de conversion de texte en parole qui peut capturer le caractère de la propre voix d’un utilisateur à partir de quelques phrases enregistrées et la transférer à la narration du livre audio.
Cela permet aux utilisateurs de sélectionner un livre dans la bibliothèque numérique et de le faire lire dans leur voix, ou dans la voix de leur choix s’ils ont des fichiers audio. Il n’est pas encore clair si ce service sera disponible en dehors de la conférence, mais cela semble peu probable compte tenu des coûts potentiels.
Au total, le projet a collecté plus de 35 000 heures de données audio sur la littérature classique, les pièces de théâtre, les biographies, etc., lues « d’une voix claire et cohérente ».
Ce seul ensemble de données peut être utile pour d’autres projets d’IA. L’équipe de recherche prévoit de mettre à disposition l’ensemble des données audio en open source sans aucune restriction.
Les livres audio sont disponibles sur Spotify, Apple Podcasts ou Google Podcasts. Plus d’informations sur le projet sont disponibles sur le site officiel.
Project Gutenberg est une bibliothèque numérique gratuite accessible via Internet. Il est créé par des bénévoles. Plus de 70 000 livres électroniques sont disponibles en lecture et en téléchargement gratuit sur le site du projet.