El modelo de audio de IA generativa Bark de Suno AI puede generar sonidos además de voces en muchos idiomas.
La generación de sonidos dentro de un discurso es flexible, ya que utiliza instrucciones en el texto que indican al modelo de voz, como [risa] o [suspiro]. Suno AI enumera una serie de instrucciones de sonido, pero dice que encuentra nuevas cada día. En mis primeras pruebas, las instrucciones no eran del todo fiables. Es más, Bark todavía no puede ladrar. Pero sigue siendo muy divertido.
Actualmente, Bark es compatible con 13 idiomas: inglés, alemán, español, francés, japonés e hindi. Suno AI dice que la voz en inglés suena mejor, pero que las voces en otros idiomas deberían sonar mejor con más escala. Se está trabajando en más idiomas.
Una función inexperta: similar a la impresionante IA de voz de ElevenLabs, una voz inglesa habla texto alemán con acento inglés.
[Hola chicos, soy André. Y, es [jadeos] – esto es una prueba de Bark. [ risas]. Tiene varias funcionalidades [música]
Prompt utilizado en Bark AI
Bark lo hace sin fonemas
A diferencia de DALL-E, de Microsoft, en el que se inspira el equipo de Bark junto con AudioLM, Bark evita utilizar sonidos abstractos del habla, conocidos como fonemas, y en su lugar incorpora indicaciones de texto directamente en tokens semánticos de alto nivel. Esto permite a Bark generalizar más allá del lenguaje hablado a otros sonidos o canciones que aparezcan en los datos de entrenamiento.
Un segundo modelo convierte estos tokens semánticos en tokens de códecs de audio para generar la forma de onda completa. Para la compresión, el equipo utiliza el potente método de compresión de audio AI Encodec de Meta.
El equipo de Bark ha puesto a disposición de los usuarios una versión de demostración gratuita en Github. La demo no puede utilizarse comercialmente, y Bark también requiere modelos de lenguaje Transformer con más de 100.000 millones de parámetros. Suno AI planea ofrecer sus propios modelos de IA generadores de audio en el futuro y ha abierto una lista de espera.
Voces de IA más emocionales: Meta y Google a la cabeza
La propia Meta también ha desvelado un gran modelo de IA generadora no supervisada para la generación de voz. Similar a Bark, el Generative Speech Language Model (GLSM) ha aprendido a producir sonidos humanos como la risa, el bostezo o el llanto, además del habla pura. Esto hace que las voces supuestamente frías de la IA suenen mucho más humanas. Con AudioGen, Meta también dispone de un modelo de IA para efectos de audio puros a partir de la introducción de texto.
Esto nos trae recuerdos del legendario teléfono con IA Duplex de Google, que sonaba casi tan natural como un ser humano, imitando sonidos humanos para las pausas en el habla, como «uhm». La presentación de Duplex suscitó un debate sobre si la voz de un ordenador debía pasar desapercibida y, por tanto, engañar a la gente, o si debía revelarse. Google se decantó por esta última opción, pero el producto aún no ha logrado un gran avance. Sin embargo, hoy en día ya hay suficientes IA capaces de engañar a la gente.