Uma equipe da University of Maryland desenvolveu o COLORBENCH, o primeiro benchmark dedicado à avaliação sistemática de como os modelos de visão e linguagem (VLMs) percebem e processam as cores.
De acordo com os pesquisadores, os resultados revelam fragilidades fundamentais na percepção de cor – mesmo entre os maiores modelos atualmente disponíveis. A cor exerce um papel central na cognição visual humana e é crucial em áreas como imagens médicas, sensoriamento remoto e reconhecimento de produtos. No entanto, ainda não está claro se os VLMs interpretam e utilizam as cores de maneira comparável.
O COLORBENCH avalia os modelos em três dimensões principais: percepção de cor, raciocínio com relação às cores e robustez a alterações de tonalidade. O benchmark inclui 11 tarefas com um total de 1.448 instâncias e 5.814 consultas de imagem-texto. Entre as atividades propostas, os modelos são solicitados a reconhecer cores, estimar proporções, contar objetos com cores específicas ou resistir a ilusões cromáticas comuns. Em um dos testes, por exemplo, os modelos são avaliados quanto à consistência quando determinados segmentos da imagem são exibidos em diferentes tonalidades.
Modelos maiores têm melhor desempenho — mas não tanto assim
O benchmark foi aplicado a 32 VLMs amplamente utilizados, incluindo modelos como GPT-4o, Gemini 2 e diversas soluções open-source com até 78 bilhões de parâmetros. Embora os modelos de maior escala apresentem, em geral, um desempenho superior, essa vantagem é menos acentuada do que em outros benchmarks. A diferença de desempenho entre modelos proprietários e de código aberto também é relativamente pequena.
Todos os modelos testados demonstraram desempenho particularmente fraco em tarefas como a contagem de cores ou testes de “daltonismo”, frequentemente atingindo menos de 30% de acurácia. Em tarefas de extração de cor – nas quais os modelos devem identificar valores específicos em HSV ou RGB – mesmo os grandes modelos alcançaram pontuações apenas moderadas. Eles tiveram um desempenho melhor em atividades que envolvem o reconhecimento de objetos ou cores, fato que os pesquisadores atribuem à natureza dos dados de treinamento.
A cor pode enganar os modelos
Um dos principais achados do estudo é que, embora os VLMs frequentemente se apoiem em sinais cromáticos, essas informações podem, por vezes, levar a conclusões equivocadas. Em tarefas que envolvem ilusões de cor ou a detecção de objetos camuflados, o desempenho dos modelos melhorou quando as imagens foram convertidas para tons de cinza – sugerindo que, nesses casos, a informação colorida era mais enganosa do que útil. Por outro lado, algumas tarefas não poderiam ser realizadas de maneira satisfatória sem a presença da cor.
O estudo também constatou que o encadeamento de raciocínio (chain-of-thought, CoT) aumentou não apenas o desempenho em tarefas de raciocínio, mas também a robustez diante de alterações cromáticas – mesmo quando apenas as cores da imagem, e não as perguntas, eram modificadas. Por exemplo, com o uso do CoT, a robustez do GPT-4o saltou de 46,2% para 69,9%.
Escala limitada dos codificadores de visão
Os pesquisadores observaram que o desempenho dos modelos correlaciona-se mais fortemente com o tamanho do modelo de linguagem do que com o do codificador de visão. A maioria dos codificadores de imagem permanece relativamente pequena – geralmente em torno de 300 a 400 milhões de parâmetros – o que limita a capacidade de avaliar seu papel na compreensão das cores. Essa constatação aponta para uma limitação estrutural no design atual dos VLMs, sendo recomendada a priorização de melhorias nos componentes visuais.
O COLORBENCH encontra-se disponível publicamente e foi concebido para apoiar o desenvolvimento de sistemas de visão e linguagem que sejam mais sensíveis às cores e robustos. Espera-se que versões futuras do benchmark incluam tarefas que combinem cor com textura, forma e relações espaciais.