A startup de inteligência artificial Cohere, por meio de seu laboratório de pesquisa sem fins lucrativos, lançou nesta semana o modelo multimodal de IA aberto chamado Aya Vision, que, segundo o laboratório, é o melhor da categoria.
O Aya Vision é capaz de realizar tarefas como escrever legendas para imagens, responder perguntas sobre fotos, traduzir textos e gerar resumos em 23 dos principais idiomas. A Cohere, que também disponibilizará o Aya Vision gratuitamente por meio do WhatsApp, afirmou que esse lançamento representa “um passo significativo para tornar avanços técnicos acessíveis a pesquisadores em todo o mundo”.
“Embora a IA tenha progredido significativamente, ainda há uma grande lacuna no desempenho dos modelos entre diferentes idiomas — uma lacuna que se torna ainda mais notória em tarefas multimodais que envolvem tanto texto quanto imagens”, explicou a Cohere em seu blog. “O Aya Vision tem como objetivo ajudar a fechar essa lacuna de forma explícita”.
O Aya Vision é oferecido em duas versões: Aya Vision 32B e Aya Vision 8B. A versão mais sofisticada, Aya Vision 32B, estabelece uma “nova fronteira”, segundo a Cohere, ao superar modelos com o dobro do tamanho — inclusive o Llama-3.2 90B Vision da Meta — em determinados benchmarks de entendimento visual. Já o Aya Vision 8B atingiu resultados superiores em algumas avaliações quando comparado a modelos 10 vezes maiores.
Ambos os modelos estão disponíveis na plataforma de desenvolvimento de IA Hugging Face sob uma licença Creative Commons 4.0 com um adendo de uso aceitável da Cohere, mas não podem ser utilizados para aplicações comerciais.
A Cohere ressaltou que o Aya Vision foi treinado a partir de um conjunto diversificado de dados em inglês, que foram traduzidos e utilizados para criar anotações sintéticas. Essas anotações — também conhecidas como tags ou rótulos — auxiliam os modelos a compreender e interpretar os dados durante o processo de treinamento. Por exemplo, para treinar um modelo de reconhecimento de imagens, as anotações podem vir na forma de marcações ao redor de objetos ou legendas que identificam cada pessoa, local ou objeto representado em uma imagem.
O modelo Aya Vision da Cohere é capaz de executar uma ampla variedade de tarefas de entendimento visual.
O uso de anotações sintéticas — isto é, anotações geradas por IA — segue uma tendência atual. Apesar de seus potenciais desafios, concorrentes como a OpenAI estão cada vez mais recorrendo aos dados sintéticos para treinar seus modelos, à medida que o “poço de dados do mundo real se esgota”. Pesquisas apontam que 60% dos dados utilizados em projetos de inteligência artificial e análises no ano passado foram gerados de forma sintética.
De acordo com a Cohere, treinar o Aya Vision com anotações sintéticas possibilitou ao laboratório utilizar menos recursos computacionais, mantendo um desempenho competitivo.
“Isso demonstra nosso foco crucial em eficiência e em fazer mais com menos capacidade computacional”, destacou a Cohere em seu blog. “Tal abordagem também amplia o suporte à comunidade de pesquisa, que frequentemente conta com acesso limitado a recursos computacionais.”
Junto com o lançamento do Aya Vision, a Cohere apresentou uma nova suíte de benchmarks, o AyaVisionBench, desenvolvida para avaliar as habilidades dos modelos em tarefas de “visão-linguagem”, como identificar diferenças entre duas imagens e converter capturas de tela em código.
A indústria de inteligência artificial enfrenta o que alguns chamam de “crise de avaliação”, em decorrência da popularização de benchmarks que oferecem pontuações agregadas com baixa correlação à proficiência nas tarefas que os usuários de IA realmente valorizam. Segundo a Cohere, o AyaVisionBench representa um passo importante para corrigir essa situação, oferecendo uma estrutura ampla e desafiadora para avaliar o entendimento multimodal e multilíngue dos modelos.
“O conjunto de dados serve como um benchmark robusto para avaliar modelos de visão-linguagem em configurações multilíngues e do mundo real”, afirmaram pesquisadores da Cohere em seu post na Hugging Face. “Disponibilizamos esse conjunto de avaliação para a comunidade de pesquisa a fim de impulsionar estudos que promovam avaliações multimodais e multilíngues.”