API em Tempo Real da OpenAI Reconhece Risos, Acentos e Alterna Idiomas Instantaneamente
A OpenAI lançou sua API em produção, conhecida como “realtime API”, oficializando sua saída da fase beta. A novidade é destinada a empresas e desenvolvedores que estão criando assistentes de voz para aplicações práticas do dia a dia, como suporte ao cliente, educação e produtividade pessoal.
O destaque da nova API é o modelo gpt-realtime, que processa e gera fala de forma instantânea, dispensando a conversão tradicional para texto. Essa abordagem faz com que o sistema responda mais rapidamente, produza uma entonação mais natural e lide de maneira mais eficiente com instruções complexas.
Segundo a OpenAI, o modelo é capaz de captar sinais não verbais, como risadas, identificar mudanças de idioma no decorrer da conversa e ajustar seu tom de voz. Por exemplo, ele pode falar de forma amigável com um leve sotaque francês ou adotar uma postura rápida e profissional, de acordo com o contexto.
Além disso, o lançamento traz duas novas vozes – Cedar e Marin – e melhorias significativas nas vozes já existentes, promovendo uma experiência sonora mais rica. Nos testes de referência, o gpt-realtime alcançou resultados notáveis: 82,8% de precisão no Big Bench Audio, 30,5% no MultiChallenge e 66,5% no ComplexFuncBench, elevando os índices registrados anteriormente.
A integração com ferramentas externas também foi aprimorada. Agora, o modelo se mostra mais apto a identificar a ferramenta correta para cada situação, acionando-a no momento oportuno e com os parâmetros adequados. Desenvolvedores podem conectar serviços externos por meio de servidores SIP e MCP remotos, enquanto prompts reutilizáveis permitem salvar configurações e ajustar comportamentos para diferentes casos de uso.
Uma inovação importante é o suporte à entrada de imagens. Usuários podem enviar capturas de tela ou fotos durante uma conversa, e o modelo é capaz de referenciar tais imagens para, por exemplo, ler textos ou responder perguntas relacionadas ao conteúdo visual. Os desenvolvedores mantêm o controle sobre o que o sistema pode visualizar.
Outras opções permitem a configuração de limites de tokens e a redução de diálogos longos, contribuindo para um controle mais efetivo dos custos de sessões prolongadas. Além disso, os preços do gpt-realtime foram reduzidos em 20%, tornando-o uma solução ainda mais competitiva para o mercado.
Por fim, a OpenAI destacou que a API conta com mecanismos para identificar conteúdos problemáticos e encerrar conversas que infrinjam suas diretrizes. Embora essa funcionalidade não deva ser a única salvaguarda, os desenvolvedores têm a possibilidade de adicionar requisitos de segurança adicionais. Para usuários da União Europeia, há opções específicas para armazenamento de dados dentro do bloco e regras aprimoradas de privacidade para empresas.