openai gpt4o audio

OpenAI lançou uma nova geração de modelos de áudio que permite aos desenvolvedores personalizar a forma de fala dos assistentes de IA. A atualização inclui um reconhecimento de fala aprimorado e a possibilidade de controlar o estilo de comunicação da IA por meio de comandos textuais simples.

Segundo a empresa, os novos modelos gpt-4o-transcribe e gpt-4o-mini-transcribe apresentam taxas de erro menores do que os sistemas anteriores, demonstrando melhor desempenho em condições desafiadoras, como sotaques marcados, ambientes barulhentos e variações na velocidade da fala.

A funcionalidade mais marcante está no novo modelo de conversão de texto em fala, o gpt-4o-mini-tts. Esse sistema responde a instruções de estilo – por exemplo, “fale como um pirata” ou “conte isso como uma história para dormir” – permitindo que os desenvolvedores ajustem com precisão a forma como as vozes geradas pela IA se comunicam. Essa inovação é baseada nas arquiteturas GPT-4o e GPT-4o-mini, que suportam diversos tipos de entrada e saída de mídia.

O aprimoramento no desempenho deve-se ao pré-treinamento especializado de conjuntos de dados de áudio, técnicas mais eficientes de destilação de modelos e ao uso expandido de aprendizado por reforço no reconhecimento de fala. Métodos de “self-play” também foram implementados para simular padrões naturais de conversação.

Acesso para Desenvolvedores e Limitações

Os desenvolvedores já podem acessar esses modelos por meio da API da OpenAI e integrá-los utilizando o Agents SDK. Para aplicações em tempo real, a recomendação é a utilização de uma API com capacidades de conversão de fala para fala.

Por enquanto, o sistema funciona apenas com as vozes artificiais predefinidas da OpenAI – não é possível criar novas vozes ou clonar as existentes. A empresa planeja permitir a personalização de vozes futuramente, sem abrir mão dos padrões de segurança, e pretende expandir suas capacidades para experiências multimodais envolvendo vídeo.

Essa atualização sucede a introdução, em março de 2024, de um Voice Engine limitado aos próprios produtos da empresa e a alguns clientes selecionados, sendo que o modelo anterior já foi substituído pelas funcionalidades mais amplas do GPT-4o.

  • Modelos de áudio aprimorados proporcionam uma conversão mais precisa de fala para texto e melhor desempenho em condições adversas.
  • O novo modelo de conversão de texto em fala permite definir estilos de comunicação específicos por meio de comandos textuais.
  • Baseados na tecnologia GPT-4o, os modelos já estão disponíveis para integração via API, com planos para futuras melhorias e expansão para recursos multimodais.