Grande parte do foco na inteligência artificial generativa até agora tem sido em interfaces baseadas em texto, utilizadas para gerar textos, imagens e muito mais. A próxima onda parece ser a voz, e ela está chegando rápido. No desenvolvimento mais recente, o Google anunciou que, a partir da próxima semana, seu modelo de voz em alta definição, o Chirp 3, será adicionado à plataforma Vertex AI.

Na semana passada, o Google silenciosamente anunciou que o Chirp 3 teria oito novas vozes para 31 idiomas. Os casos de uso da plataforma incluem a criação de assistentes de voz, audiolivros, agentes de suporte e narrações para vídeos. A novidade foi apresentada em um evento nos escritórios do DeepMind, em Londres.

Os esforços do Google surgem em um momento em que outros também avançam com suas iniciativas em inteligência artificial voltada para a fala. Recentemente, a Sesame – startup responsável pelos aplicativos “Maya” e “Miles”, com vozes extremamente realistas – revelou o lançamento de seu modelo, possibilitando que desenvolvedores criem aplicativos e serviços personalizados sobre sua tecnologia.

No entanto, haverá restrições de uso para o Chirp 3, a fim de prevenir abusos. “Estamos apenas trabalhando nesses aspectos com nossa equipe de segurança”, afirmou Thomas Kurian, CEO do Google Cloud, durante o evento.

Além disso, a ElevenLabs está entre as grandes startups que já captaram centenas de milhões de dólares em financiamento para expandir seus serviços de voz com IA.

A novidade colocará o Chirp 3 no mesmo patamar de versões mais recentes do modelo principal de linguagem do Google, o Gemini, que está em fase de testes, bem como de seu gerador de imagens, Imagen, e da ferramenta de geração de vídeos Veo 2, que possui um custo elevado.

Embora seja discutível se o lançamento do Chirp 3 atingirá o nível de realismo de alguns dos outros esforços de IA para criar vozes “humanas” – destaque para o trabalho da Sesame –, Demis Hassabis, CEO da DeepMind, enfatizou que o caminho é longo. “No curto prazo… essa ideia de que a IA será uma solução milagrosa para tudo nos próximos anos, eu não vejo isso acontecendo tão cedo. Acho que ainda estamos a alguns anos de distância de algo como a AGI acontecer. Isso vai mudar as coisas… ao longo do próximo decênio, em um prazo médio a longo. É um daqueles momentos muito interessantes na história.”

O Google lançou o Vertex AI em 2021 como uma plataforma destinada a desenvolvedores criarem serviços de machine learning na nuvem, bem antes da explosão de interesse na IA generativa, impulsionada pelo surgimento dos serviços GPT da OpenAI.

Desde então, a empresa vem investindo no Vertex AI, em parte para acompanhar outras gigantes, como Microsoft e Amazon, que estão desenvolvendo ferramentas de IA generativa para desenvolvedores. Além de criar soluções de IA generativa a partir do Gemini, os desenvolvedores podem utilizar o Vertex AI para classificar dados, treinar modelos e prepará-los para produção. Será interessante observar se a plataforma se expandirá para incluir modelos além dos desenvolvidos pelo próprio Google.

O Google vem desenvolvendo serviços de voz sob o nome “Chirp” há anos, utilizando esse codinome desde seus primeiros esforços para competir com o serviço Alexa, da Amazon.