Resemble AI lançou o Chatterbox, um modelo gratuito de clonagem de voz de código aberto que funciona localmente e oferece controle do tom emocional, como “dramático” ou “monótono”.
O Chatterbox é capaz de clonar vozes a partir de apenas alguns segundos de áudio e responde em menos de 200 milissegundos. Funciona em Windows, Mac e Linux, exigindo de 5 a 6 GB de memória de vídeo. Toda fala gerada inclui uma marca d'água sutil, “PerTh”, que a identifica como produzida por inteligência artificial.
De acordo com a Resemble AI, o desempenho do Chatterbox foi superior ao do ElevenLabs em testes às cegas. Atualmente, o modelo suporta apenas o idioma inglês.
Licenciado sob a MIT e direcionado a desenvolvedores, o Chatterbox pode ser testado por meio da demonstração disponível.
