LMEval visa padronizar benchmarks e agilizar a análise de segurança para grandes modelos de linguagem e multimodais
O Google lançou o LMEval, um framework de código aberto projetado para facilitar a comparação entre grandes modelos de IA de diferentes empresas. Segundo a empresa, o LMEval permite que pesquisadores e desenvolvedores avaliem sistematicamente modelos como GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash e Llama-3.1-405B utilizando um processo unificado.
Comparar novos modelos de IA sempre foi uma tarefa complicada, pois cada provedor utiliza suas próprias APIs, formatos de dados e configurações de benchmark, tornando as avaliações lado a lado lentas e complexas. O LMEval resolve esse problema ao padronizar o processo — uma vez configurado um benchmark, ele pode ser aplicado a qualquer modelo suportado com esforço mínimo, independentemente da empresa desenvolvedora.
Benchmarks multimodais e métricas de segurança
Além de textos, o LMEval suporta benchmarks para imagens e código, e novos formatos de entrada podem ser adicionados facilmente. O sistema é capaz de lidar com uma variedade de tipos de avaliação, que vão desde perguntas de sim/não e múltipla escolha até a geração de texto livre. O framework também é capaz de identificar “estratégias evasivas”, nas quais os modelos intencionalmente fornecem respostas vagas para evitar a produção de conteúdos problemáticos ou arriscados.
Compatibilidade entre plataformas
O LMEval é executado sobre o framework LiteLLM, que integra as diferenças entre as APIs de provedores como Google, OpenAI, Anthropic, Ollama e Hugging Face. Isso permite que o mesmo teste seja realizado em múltiplas plataformas sem a necessidade de reescrever o código. Um recurso de destaque é a avaliação incremental: em vez de reexecutar toda a suíte de testes sempre que um novo modelo ou pergunta é introduzido, o sistema realiza apenas os testes adicionais necessários, economizando tempo e reduzindo os custos computacionais. Além disso, o LMEval utiliza um mecanismo multithread que acelera o processamento ao realizar múltiplos cálculos em paralelo.
Para facilitar a análise dos resultados, o Google disponibilizou uma ferramenta de visualização chamada LMEvalboard. Esse painel gera gráficos radar que demonstram o desempenho dos modelos em diferentes categorias, permitindo uma análise detalhada das falhas individuais e comparações diretas entre eles por meio de exibições gráficas lado a lado.
