Le modèle audio génératif Bark de Suno AI peut générer des sons en plus des voix dans de nombreuses langues.

La génération de sons à l’intérieur d’un discours est flexible, utilisant des instructions dans le texte qui invitent le modèle vocal, comme [rire] ou [soupir]. Suno AI répertorie un certain nombre d’instructions sonores, mais affirme en trouver de nouvelles chaque jour. Lors de mes premiers essais, les instructions n’étaient pas tout à fait fiables. De plus, Bark ne peut pas encore aboyer. Mais c’est tout de même très amusant.

Bark prend actuellement en charge 13 langues, dont l’anglais, l’allemand, l’espagnol, le français, le japonais et l’hindi. Suno AI affirme que la voix anglaise est la meilleure, mais que les voix dans d’autres langues devraient s’améliorer avec une plus grande échelle. D’autres langues sont en cours d’élaboration.

Une fonction inexpérimentée : à l’instar de l’impressionnante IA vocale d’ElevenLabs, une voix anglaise prononce un texte allemand avec un accent anglais.

[Bonjour les gars, c’est André. Et c’est [halètements] – c’est un test Bark. [rires]. Il a plusieurs fonctionnalités [musique]

Invite utilisée dans Bark AI

L’aboiement se fait sans phonèmes

Contrairement à DALL-E de Microsoft, que l’équipe de Bark cite comme source d’inspiration avec AudioLM, Bark évite d’utiliser des sons abstraits de la parole, appelés phonèmes, et incorpore des invites textuelles directement dans des jetons sémantiques de niveau supérieur. Cela permet à Bark de généraliser au-delà de la langue parlée, à d’autres sons ou chansons qui apparaissent dans les données d’apprentissage.

Un second modèle convertit ces jetons sémantiques en jetons de codec audio pour générer la forme d’onde complète. Pour la compression, l’équipe utilise la puissante méthode de compression audio AI Encodec de Meta.

L’équipe de Bark met gratuitement à disposition une version de démonstration de son logiciel sur Github. La démo ne peut pas être utilisée commercialement, et Bark nécessite également des modèles de langage Transformer avec plus de 100 milliards de paramètres. Suno AI prévoit de proposer à l’avenir ses propres modèles d’IA générateurs de sons et a ouvert une liste d’attente.

Des voix d’IA plus émotionnelles : Meta et Google ouvrent la voie

Meta a également dévoilé un excellent modèle d’IA génératrice non supervisée pour la génération de voix. À l’instar de Bark, le Generative Speech Language Model (GLSM) a appris à produire des sons humains tels que le rire, le bâillement ou les pleurs, en plus de la parole pure. Ainsi, les voix prétendument froides de l’IA paraissent beaucoup plus humaines. Avec AudioGen, Meta dispose également d’un modèle d’IA pour les effets audio purs à partir d’une saisie de texte.

Cela rappelle le légendaire téléphone à IA Duplex de Google, qui semblait presque aussi naturel qu’un être humain, imitant les sons humains pour les pauses dans la parole, comme « uhm ». Le dévoilement de Duplex a suscité un débat sur la question de savoir si une voix d’ordinateur devait rester méconnue et donc tromper les gens, ou si elle devait se révéler. Google a opté pour cette dernière solution, mais le produit n’a pas encore fait de percée. Pourtant, il existe aujourd’hui bien assez d’IA capables de tromper les gens.