Aujourd’hui, nous sommes plus proches d’un avenir de célébrités immortelles, quelque chose qui nous a été promis depuis longtemps (depuis avril). Meta a dévoilé Voicebox, son modèle de texte génératif en parole qui promet de faire pour l’audio ce que ChatGPT et Dall-E ont fait respectivement pour la génération de texte et d’images.

Essentiellement, c’est un générateur de texte pour la sortie audio, tout comme GPT ou Dall-E, mais au lieu de créer de la prose ou de belles images, il génère des extraits audio. Meta définit le système comme « un modèle de flux de correspondance non autonome entraîné à remplir le discours, en fonction du contexte audio et du texte ». Il a été formé sur plus de 50 000 heures de contenu audio non filtré. Plus précisément, Meta a utilisé des enregistrements de parole et des transcriptions d’une variété de livres audio du domaine public en anglais, français, espagnol, allemand, polonais et portugais.

Cette diversité de jeux de données permet au système de générer un discours avec une sonorité plus naturelle et conversationnelle, indépendamment des langues parlées par chaque partie, selon les chercheurs. « Nos résultats montrent que les modèles de reconnaissance de la parole formés sur la parole synthétique générée par Voicebox fonctionnent presque aussi bien que les modèles formés sur la parole réelle ». De plus, le discours généré par l’ordinateur n’a eu qu’un taux d’erreur de 1%, comparé à la chute de 45% a 70% observée dans les modèles existants de synthèse de la parole (TTS).

Initialement, le système a été formé pour prédire des segments de discours en fonction des segments environnants, ainsi que du texte de la section. « Après avoir appris à remplir le discours à partir du contexte, le peut l’appliquer à des tâches de génération de discours, y compris la génération de segments au milieu d’un enregistrement audio sans avoir à recréer l’ensemble de l’entrée », ont expliqué les chercheurs.

Le Voicebox de Meta

O Voicebox est également capable, selon les rapports, d’éditer activement des clips audio, en supprimant les bruits de la parole et même en remplaçant les mots prononcés de manière incorrecte. « Une personne pourrait identifier quel segment brut du discours est corrompu par du bruit (comme le bruit d’un chien qui aboie), le découper et instruire le modèle à régénérer ce segment », ont déclaré les chercheurs, tout comme on utilise un logiciel de retouche d’images pour améliorer des photographies.

Les générateurs de texte en parole existent depuis un certain temps – ce sont comme les anciens systèmes de navigation vocale (GPS) capables de donner des instructions de direction avec la voix de Morgan Freeman. Les versions modernes, telles que Speechify ou Prime Voice AI d’Elevenlabs, sont bien plus capables, mais elles exigent encore une énorme quantité de matériel source pour imiter correctement le sujet – et ensuite une autre énorme quantité de données différentes pour chaque autre sujet que vous souhaitez entraîner.

Le Voicebox n’a pas besoin de cela, grâce à une nouvelle et innovante méthode d’entraînement de texte en parole appelée Flow Matching, développée par Meta. Les résultats de référence sont impressionnants, car l’IA de Meta a surpassé l’état de l’art actuel à la fois en termes d’intelligibilité (un taux d’erreur de mot de 1,9% contre 5,9%) et de « similarité audio » (un score composite de 0,681 contre 0,580 de l’état de l’art), tout en fonctionnant jusqu’à 20 fois plus rapidement que les meilleurs systèmes de synthèse de la parole actuellement disponibles.

Cependant, il n’est pas encore temps de se réjouir de ses navigateurs de célébrités, car ni l’application Voicebox ni son code source ne sont actuellement disponibles au public, a confirmé Meta vendredi, citant « les risques potentiels d’utilisation abusive », malgré les « nombreux cas d’utilisation passionnants pour les modèles génératifs de parole ». Au lieu de cela, l’entreprise a publié une série d’exemples audio, ainsi que l’article de recherche initial du programme. À l’avenir, l’équipe de recherche espère que la technologie pourra être appliquée aux prothèses pour les patients ayant des lésions des cordes vocales, aux personnages non jouables (PNJ) dans les jeux et aux assistants numériques.

Avec des informations d’Engadget.