Open ASR Leaderboard avalia mais de 60 modelos de reconhecimento de fala em precisão e velocidade
Um grupo de pesquisa da Hugging Face, Nvidia, Universidade de Cambridge e Mistral AI lançou o Open ASR Leaderboard, uma plataforma de avaliação de sistemas de reconhecimento automático de fala. A iniciativa foi criada para oferecer uma comparação clara entre modelos de código aberto e comerciais. Mais de 60 modelos de 18 empresas já foram testados, abrangendo categorias como transcrição em inglês, reconhecimento multilíngue (alemão, francês, italiano, espanhol e português) e áudios longos com mais de 30 segundos. Nesta última categoria, evidencia-se que alguns sistemas apresentam desempenho diferente em gravações longas em comparação às curtas.
Precisão versus velocidade
Os testes demonstram diferenças marcantes entre os tipos de modelo na transcrição em inglês. Sistemas desenvolvidos com grandes modelos de linguagem entregam resultados mais precisos, com o Canary Qwen 2.5B da Nvidia liderando a lista com uma taxa de erro de 5,63%. Entretanto, essa precisão tem um custo: tais modelos são mais lentos no processamento do áudio. Por exemplo, sistemas mais simples, como o Parakeet CTC 1.1B da Nvidia, conseguem transcrever áudios até 2.728 vezes mais rápido que o tempo real, mas acabam ficando em posições inferiores em termos de acurácia.
Modelos multilíngues perdem parte da especialização
Os testes realizados em diversas línguas revelam uma compensação entre versatilidade e precisão. Modelos treinados exclusivamente para uma única língua superam os multilíngues na transcrição daquela língua específica, mas apresentam dificuldades com outras. Assim, os modelos Whisper treinados apenas em inglês obtêm resultados melhores nessa língua em comparação com o Whisper Large v3 multilíngue, que, por sua vez, não consegue transcrever adequadamente outros idiomas.
No cenário multilíngue, o Microsoft Phi-4 multimodal Instruct se destaca em alemão e italiano. Enquanto isso, o modelo Parakeet TDT v3 da Nvidia, que suporta 25 idiomas, é comparado à sua versão anterior, que suportava apenas um idioma; contudo, a versão mais abrangente apresenta desempenho inferior em inglês em relação à versão especializada.
Código aberto supera modelos comerciais em áudios curtos
Para áudios curtos, os modelos de código aberto ocupam as primeiras posições. O melhor sistema comercial, Aqua Voice Avalon, aparece na sexta posição, embora comparações de velocidade em serviços pagos possam ser prejudicadas por fatores como tempo de upload e outras variáveis. Em contrapartida, para áudios mais longos, os provedores comerciais apresentam melhores resultados, com o Elevenlabs Scribe v1 (com 4,33% de taxa de erro) e o RevAI Fusion (5,04%) liderando a lista. Esses resultados podem ser atribuídos à otimização desenvolvida especificamente para conteúdos longos e ao investimento em uma infraestrutura mais robusta.
O leaderboard completo e o código-fonte estão disponíveis no GitHub, e os conjuntos de dados podem ser explorados diretamente no Hugging Face Hub. Desenvolvedores têm a oportunidade de submeter novos modelos mediante a execução de scripts no conjunto de testes oficial. A equipe planeja expandir a plataforma com mais línguas, aplicações e métricas em atualizações futuras, além de testar novas combinações de componentes de sistema que ainda não foram amplamente exploradas. Com a disseminação dos grandes modelos de linguagem, espera-se que um número ainda maior de sistemas de reconhecimento de fala incorpore essa tecnologia.
