Um ano depois, a OpenAI ainda não lançou sua ferramenta de clonagem de voz

No final de março do ano passado, a OpenAI anunciou uma “visualização em pequena escala” de um serviço de IA, Voice Engine, que, segundo a empresa, seria capaz de clonar a voz de uma pessoa com apenas 15 segundos de fala. Aproximadamente um ano depois, a ferramenta permanece em versão de teste, e a OpenAI não deu nenhuma indicação de quando ela poderá ser lançada – ou mesmo se será lançada.

A relutância da empresa em disponibilizar o serviço amplamente pode estar relacionada a temores de uso indevido, mas também pode refletir um esforço para evitar maiores escrutínios regulatórios. Historicamente, a OpenAI foi acusada de priorizar “produtos chamativos” em detrimento da segurança e de lançar produtos às pressas para superar concorrentes no mercado.

Em comunicado, um porta-voz da OpenAI afirmou que a empresa continua testando o Voice Engine com um número limitado de “parceiros de confiança”. Segundo o porta-voz: “Estamos aprendendo com a forma como nossos parceiros estão utilizando a tecnologia, para que possamos melhorar a utilidade e a segurança do modelo. Ficamos entusiasmados ao ver as diferentes maneiras pelas quais a ferramenta está sendo empregada, desde terapia da fala, aprendizado de idiomas, suporte ao cliente, personagens de videogames até avatares de IA.”

Adiado

O Voice Engine, que alimenta as vozes disponíveis na API de conversão de texto em fala da OpenAI, bem como o Voice Mode do ChatGPT, gera uma fala com entonação natural que se assemelha à do locutor original. A ferramenta converte caracteres escritos em fala, estando limitada apenas por certos mecanismos de segurança no conteúdo. Contudo, desde seu início, ela enfrentou atrasos e mudanças nas datas de lançamento.

Conforme explicado pela OpenAI em uma postagem no blog de junho de 2024, o modelo do Voice Engine aprende a prever os sons mais prováveis que um locutor produzirá para um determinado texto, levando em consideração diferentes vozes, sotaques e estilos de fala. Após esse processo, o modelo não gera apenas versões faladas de um texto, mas também “expressões faladas” que refletem como diferentes tipos de locutores leriam o conteúdo em voz alta.

A intenção inicial da OpenAI era disponibilizar o Voice Engine – originalmente chamado Custom Voices – na sua API a partir de 7 de março de 2024, de acordo com um rascunho de postagem visto anteriormente. A ideia era oferecer acesso antecipado para um grupo de até 100 desenvolvedores de confiança antes de um lançamento mais amplo, priorizando aqueles que estivessem construindo aplicativos que proporcionassem um benefício social ou demonstrassem usos inovadores e responsáveis da tecnologia. A ferramenta chegou até a ter seu nome registrado e preços estipulados: US$ 15 por milhão de caracteres para vozes “padrão” e US$ 30 por milhão de caracteres para vozes de “qualidade HD”.

No entanto, em cima da hora, a empresa adiou o anúncio. Algumas semanas depois, a OpenAI revelou o Voice Engine sem oferecer uma opção de inscrição. O acesso à ferramenta permaneceu restrito a um grupo de aproximadamente 10 desenvolvedores com os quais a empresa começou a trabalhar no final de 2023.

A empresa destacou em seu comunicado que espera iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a essas novas capacidades. Com base nas conversas e nos resultados destes testes em pequena escala, a OpenAI pretende tomar uma decisão mais informada sobre se e como implantar essa tecnologia em larga escala.

Em andamento

De acordo com a OpenAI, o Voice Engine está em desenvolvimento desde 2022. A empresa afirma que demonstrou a ferramenta para formuladores de políticas globais de alto escalão no verão de 2023, a fim de evidenciar seu potencial – e os riscos envolvidos.

Vários parceiros já possuem acesso ao Voice Engine, inclusive a startup Livox, que está desenvolvendo dispositivos para que pessoas com deficiência possam se comunicar de forma mais natural. O CEO da Livox, Carlos Pereira, destacou que, apesar de a empresa não ter conseguido integrar o Voice Engine em um produto devido à necessidade da ferramenta estar online (muitos dos clientes da Livox não possuem acesso à internet), a tecnologia é “realmente impressionante”.

Pereira comentou que a qualidade da voz e a possibilidade de ter vozes que falem em diferentes idiomas são características únicas – especialmente para pessoas com deficiência. Ele afirmou ainda: “É sem dúvida a ferramenta mais impressionante e fácil de usar para criar vozes que já vi… Esperamos que a OpenAI desenvolva uma versão offline em breve.”

O CEO ressaltou não ter recebido orientações da OpenAI sobre um possível lançamento do Voice Engine e não ter percebido sinais de que a empresa planeje começar a cobrar pelo serviço. Até o momento, a Livox não precisou pagar pelo uso da ferramenta.

Em uma postagem no blog de junho de 2024, a OpenAI sugeriu que um dos motivos para o adiamento do Voice Engine foi o potencial de abuso observado durante o ciclo eleitoral dos Estados Unidos no ano anterior. Orientada por discussões com diversos interessados, a ferramenta conta com várias medidas de segurança mitigadoras, incluindo marca d’água para rastrear a origem do áudio gerado.

Segundo a OpenAI, os desenvolvedores precisam obter o consentimento explícito do locutor original antes de utilizar o Voice Engine, e devem esclarecer ao público que as vozes são geradas por IA. A empresa ainda não detalhou como pretende fazer cumprir essas políticas, o que pode se revelar um desafio imenso mesmo para uma companhia com os recursos da OpenAI.

Em seus comunicados, a OpenAI também sugeriu a criação de uma experiência de autenticação de voz para verificar os locutores e de uma lista de “não permitir” que impeça a criação de vozes que soem excessivamente semelhantes às de figuras públicas proeminentes. Ambas as iniciativas são tecnologicamente ambiciosas, e eventuais erros podem prejudicar a imagem de uma empresa frequentemente criticada por deixar de priorizar iniciativas de segurança.

Hoje, requisitos robustos de filtragem e verificação de identidade estão se tornando exigências básicas para o lançamento responsável de tecnologias de clonagem de voz. A clonagem de voz por IA foi um dos golpes mais rápidos de se disputar em 2024, tendo sido associada a fraudes e burlas em verificações de segurança bancária, enquanto leis de privacidade e direitos autorais lutam para acompanhar o avanço tecnológico. Atos maliciosos já utilizaram a clonagem de voz para criar deepfakes incendiários de celebridades e políticos, que se espalharam rapidamente pelas redes sociais.

A OpenAI pode lançar o Voice Engine já na próxima semana – ou nunca. A empresa tem afirmado reiteradamente que está considerando manter o serviço em âmbito restrito. Contudo, uma coisa é certa: por motivos de imagem, segurança ou ambos, a versão de teste limitada do Voice Engine se tornou uma das mais longas na história da OpenAI.