A ferramenta de transcrição por IA da NVIDIA produz 60 minutos de texto em 1 segundo

A NVIDIA lançou uma nova versão de sua ferramenta de transcrição Parakeet, que apresenta a menor taxa de erro entre os seus concorrentes. Além disso, a empresa tornou o código público no GitHub.

O Parakeet TDT 0.6B é um modelo de reconhecimento automático de fala com 600 milhões de parâmetros, capaz de transcrever 60 minutos de áudio por segundo, conforme explicado por um cientista de dados da Hugging Face em 5 de maio.

O modelo é recomendado – mas não se limita – a aplicações como IA conversacional, assistentes de voz, serviços de transcrição, geração de legendas e plataformas de análise de voz. Vale destacar que a transcrição do Parakeet TDT 0.6B está disponível apenas em inglês.

Como acessar a nova ferramenta Parakeet e o que ela pode fazer

A NVIDIA disponibilizou o Parakeet TDT 0.6B sob uma licença Creative Commons comercialmente permissiva, permitindo que desenvolvedores incorporem a tecnologia de transcrição em seus próprios produtos para uso empresarial ou comercialização individual. A ferramenta oferece transcrições precisas, inclusive de letras de músicas, com pontuação e capitalização automáticas, dando atenção especial à transcrição correta de números falados.

O Open ASR Leaderboard da Hugging Face confirmou essa precisão; a versão 2 do Parakeet TDT 0.6B lidera a classificação, superando produtos da Microsoft e da OpenAI, e também ultrapassa muitos dos outros modelos de transcrição da NVIDIA. O desempenho específico de cada instância pode variar com base no hardware utilizado.

O Parakeet TDT 0.6B pode ser obtido tanto na plataforma Hugging Face quanto por meio do toolkit NeMo da NVIDIA. O modelo foi desenvolvido com base na arquitetura do codificador Fast Conformer, presente no NVIDIA NeMo, e treinado no conjunto de dados Granary – um corpus com aproximadamente 120 mil horas de dados de fala em inglês, composto por falas transcritas manualmente e automaticamente a partir de fontes como o conjunto de dados YouTube-Commons.

O papel do Parakeet no portfólio da NVIDIA e no cenário competitivo

Lançar o Parakeet TDT 0.6B como código aberto reforça a posição da NVIDIA na indústria de IA generativa. A empresa é referência ao fornecer infraestrutura e ferramentas que possibilitam a proliferação da IA, especialmente por meio dos GPUs que são seu principal hardware. O Parakeet TDT 0.6B é apenas uma das diversas ferramentas e serviços baseados em IA que a NVIDIA oferece.

Entre os concorrentes, o modelo com a segunda maior pontuação no leaderboard é o Phi-4-multimodal-instruct, da Microsoft, que tem capacidade de transcrever fala em 23 idiomas.