Sesame, a startup por trás do assistente virtual Maya lança seu modelo de IA base
A empresa de IA Sesame lançou o modelo base que alimenta Maya, o assistente de voz impressionantemente realista.
O modelo, que possui 1 bilhão de parâmetros (parâmetros referem-se aos componentes individuais do modelo), está sob a licença Apache 2.0, permitindo seu uso comercial com poucas restrições. Batizado de CSM-1B, ele gera “códigos de áudio RVQ” a partir de entradas de texto e áudio, conforme a descrição da Sesame na plataforma Hugging Face.
RVQ (quantização vetorial residual) é uma técnica para codificar áudio em tokens discretos, conhecidos como códigos. Essa abordagem é utilizada em diversas tecnologias recentes de áudio em IA, como o SoundStream do Google e o Encodec do Meta, conforme detalhado por análises especializadas.
O CSM-1B utiliza um modelo da família Llama, da Meta, como base, combinado com um componente “decodificador” de áudio. Uma variante refinada do CSM alimenta Maya, segundo a Sesame.
Conforme informado pela Sesame em seus repositórios no Hugging Face e GitHub, “o modelo disponibilizado aqui é um modelo base de geração. Ele é capaz de produzir uma variedade de vozes, mas não foi ajustado para uma voz específica […] O modelo possui alguma capacidade para idiomas que não o inglês devido à contaminação dos dados de treinamento, mas provavelmente não terá um bom desempenho.”
Não está claro quais dados a Sesame utilizou para treinar o CSM-1B, pois a empresa não divulgou essa informação.
Vale ressaltar que o modelo não possui salvaguardas significativas. Trata-se de uma situação baseada no “honor system”, já que a Sesame recomenda apenas que desenvolvedores e usuários não utilizem o modelo para imitar a voz de uma pessoa sem consentimento, criar conteúdos enganosos como fake news ou se envolver em atividades consideradas prejudiciais ou maliciosas.
Ao testar a demonstração no Hugging Face, foi possível clonar minha voz em menos de um minuto. A partir daí, ficou fácil gerar fala para diversos propósitos, inclusive sobre temas polêmicos como eleições e propaganda russa.
A Sesame, cofundada por Brendan Iribe, co-criador do Oculus, ganhou grande repercussão no final de fevereiro devido à sua tecnologia de assistente, que chega perto de ultrapassar o “vale da estranheza”. Tanto Maya quanto o outro assistente da empresa, Miles, fazem pausas para respirar, apresentam disfluências ao falar e podem ser interrompidos enquanto se expressam, de maneira semelhante ao Voice Mode da OpenAI.
Além de desenvolver tecnologia para assistentes de voz, a empresa afirmou que está prototipando óculos de IA “projetados para serem usados o dia todo”, que virão equipados com seus modelos personalizados.