Hoy estamos más cerca de un futuro de celebridades inmortales, algo que nos han prometido desde hace mucho tiempo (desde abril). Meta reveló Voicebox, su modelo generativo de texto a voz que promete hacer por el audio lo que ChatGPT y Dall-E hicieron respectivamente por la generación de texto e imágenes.
Básicamente, es un generador de texto para salida de audio, al igual que GPT o Dall-E, pero en lugar de crear prosa o imágenes hermosas, genera clips de audio. Meta define el sistema como «un modelo de flujo de correspondencia no autoregresivo entrenado para llenar el discurso, basado en el contexto de audio y texto». Fue entrenado en más de 50,000 horas de audio sin filtrar. Específicamente, Meta utilizó habla grabada y transcripciones de una variedad de audiolibros de dominio público en inglés, francés, español, alemán, polaco y portugués.
Esta diversidad de conjunto de datos permite que el sistema genere un discurso con una sonoridad más natural y conversacional, independientemente de los idiomas hablados por cada parte, según los investigadores. «Nuestros resultados muestran que los modelos de reconocimiento de habla entrenados en discurso sintético generado por Voicebox tienen un rendimiento casi tan bueno como los modelos entrenados en habla real». Además, el discurso generado por la computadora tuvo solo una tasa de error del 1%, en comparación con la caída del 45% al 70% observada en los modelos existentes de TTS.
Inicialmente, el sistema fue entrenado para predecir segmentos de habla en función de los segmentos circundantes, así como del texto del fragmento. «Después de aprender a llenar el discurso a partir del contexto, el modelo puede aplicarlo en tareas de generación de habla, incluida la generación de fragmentos en medio de una grabación de audio sin tener que recrear toda la entrada», explicaron los investigadores de Meta.
Voicebox de Meta también es capaz, según informes, de editar activamente clips de audio, eliminando ruidos del habla e incluso reemplazando palabras pronunciadas incorrectamente. «Una persona podría identificar qué segmento bruto del discurso está corrompido por ruido (como el ladrido de un perro), recortarlo e instruir al modelo a regenerar ese segmento», dijeron los investigadores, al igual que se usa un software de edición de imágenes para mejorar fotografías.
Los generadores de texto a voz han existido por un tiempo, son como los antiguos sistemas de navegación por voz (GPS) que podían dar instrucciones de dirección con la voz de Morgan Freeman. Las versiones modernas, como Speechify o Prime Voice AI de Elevenlabs, son mucho más capaces, pero aún requieren una enorme cantidad de material de origen para imitar correctamente al sujeto, y luego otra cantidad inmensa de datos diferentes para cada otro tema que se quiera entrenar.
Voicebox no necesita eso, gracias a un nuevo e innovador método de entrenamiento de texto a voz llamado Flow Matching, desarrollado por Meta. Los resultados de referencia son impresionantes, ya que el IA de Meta superó el estado del arte actual tanto en inteligibilidad (una tasa de error de palabra del 1.9% frente al 5.9%) como en «similitud de audio» (una puntuación compuesta de 0.681 en comparación con 0.580 del estado del arte), mientras opera hasta 20 veces más rápido que los mejores sistemas de TTS disponibles en la actualidad.
Pero aún no es el momento de emocionarse con los navegadores de celebridades, ya que ni la aplicación Voicebox ni su código fuente se están haciendo públicos en este momento, confirmó Meta el viernes, citando «los posibles riesgos de un uso indebido», a pesar de los «muchos casos de uso emocionantes para modelos generativos de habla». En su lugar, la empresa ha publicado una serie de ejemplos de audio, así como el artículo de investigación inicial del programa. En el futuro, el equipo de investigación espera que la tecnología se aplique en prótesis para pacientes con daños en las cuerdas vocales, en personajes no jugadores (NPCs) en juegos y en asistentes digitales. Con información de Engaget.