Pesquisadores introduzem COLORBENCH para testar compreensão de cores em modelos de visão e linguagem

Uma equipe da University of Maryland desenvolveu o COLORBENCH, o primeiro benchmark dedicado a avaliar de forma sistemática como os modelos de visão e linguagem (VLMs) percebem e processam a cor. De acordo com os pesquisadores, os resultados revelam fraquezas fundamentais na percepção de cores — mesmo entre os maiores modelos atualmente disponíveis.

A cor desempenha um papel central na cognição visual humana e é crucial em áreas como imagens médicas, sensoriamento remoto e reconhecimento de produtos. Contudo, ainda não está claro se os VLMs interpretam e utilizam as cores de maneira comparável.

O COLORBENCH avalia os modelos em três dimensões principais: percepção de cores, raciocínio com cores e robustez diante de alterações de cores. O benchmark inclui 11 tarefas, totalizando 1.448 instâncias e 5.814 consultas de imagem e texto. As tarefas exigem dos modelos reconhecer cores, estimar proporções cromáticas, contar objetos com cores específicas ou resistir a ilusões comuns. Em um dos testes, por exemplo, os modelos são avaliados quanto à sua consistência quando segmentos específicos da imagem são rotacionados entre diferentes cores.

Colobench Test samples

Modelos maiores apresentam melhor desempenho — mas não por muito

O benchmark foi utilizado para testar 32 VLMs amplamente usados, como GPT-4o, Gemini 2 e uma variedade de modelos open-source com até 78 bilhões de parâmetros. Os resultados indicam que, embora modelos maiores geralmente apresentem um desempenho superior, esse efeito é menos pronunciado do que em outros benchmarks. Além disso, a lacuna de desempenho entre modelos open-source e proprietários também é relativamente pequena.

Todos os modelos testados demonstraram desempenho particularmente fraco em tarefas como a contagem de cores ou testes relacionados ao daltonismo, muitas vezes alcançando menos de 30% de acurácia. Mesmo em tarefas de extração de cores — onde os modelos devem identificar valores específicos em formatos HSV ou RGB — os modelos maiores normalmente obtiveram pontuações moderadas. Observou-se um desempenho melhor em tarefas que envolvem o reconhecimento de objetos ou de cores, o que os pesquisadores atribuem à natureza dos dados de treinamento.

A cor pode enganar os modelos

Uma descoberta importante foi que, embora os VLMs frequentemente se baseiem em pistas cromáticas, esses sinais podem, às vezes, levar a conclusões equivocadas. Em tarefas envolvendo ilusões de cores ou na detecção de objetos camuflados, o desempenho dos modelos melhorou quando as imagens foram convertidas para tons de cinza, sugerindo que, nesses casos, a informação de cor era mais enganosa do que útil. Por outro lado, algumas tarefas não poderiam ser realizadas de forma satisfatória sem a presença da cor.

O estudo também constatou que o raciocínio em cadeia (chain-of-thought) aumentou não apenas o desempenho em tarefas de raciocínio, mas também a robustez diante de mudanças nas cores — mesmo que apenas os tons da imagem tenham sido alterados. Com o uso dessa técnica, por exemplo, a pontuação de robustez do GPT-4o saltou de 46,2% para 69,9%.

Escalabilidade limitada dos codificadores visuais

Os pesquisadores observaram que o desempenho dos modelos está mais correlacionado ao tamanho do modelo de linguagem do que ao do codificador visual. A maioria dos codificadores visuais ainda é relativamente pequena, tipicamente entre 300 e 400 milhões de parâmetros, o que limita a capacidade de avaliar seu papel na compreensão de cores. A equipe identifica isso como uma limitação estrutural no design dos VLMs atuais e recomenda o desenvolvimento adicional dos componentes visuais.

O COLORBENCH está disponível publicamente e tem como objetivo apoiar o desenvolvimento de sistemas de visão e linguagem mais sensíveis à cor e robustos. Espera-se que versões futuras do benchmark incluam tarefas que combinem cor com textura, forma e relações espaciais.