Um novo modelo de IA open-source da startup chinesa Moonshot AI processa imagens, textos e vídeos com surpreendente eficiência. O Kimi-VL se destaca por sua capacidade de lidar com documentos extensos, raciocínio complexo e compreensão de interfaces de usuário.

Segundo a Moonshot AI, o Kimi-VL utiliza uma arquitetura de mistura de especialistas, ativando apenas parte do modelo para cada tarefa. Com apenas 2,8 bilhões de parâmetros ativos – bem menos do que muitos modelos de grande porte – ele entrega resultados comparáveis aos de sistemas muito maiores em diversos benchmarks.

O modelo dispõe de uma janela de contexto máxima de 128.000 tokens, suficiente para processar um livro inteiro ou uma transcrição extensa de vídeo. A Moonshot AI relata que o Kimi-VL tem se saído muito bem em testes como LongVideoBench e MMLongBench-Doc.

Kimi VL Visual Reasoning Model

As capacidades de processamento de imagem do Kimi-VL são notáveis. Diferente de alguns sistemas, ele consegue analisar screenshots completas ou gráficos complexos sem a necessidade de fragmentá-los. O modelo também é capaz de resolver problemas matemáticos apresentados por imagens e interpretar anotações manuscritas. Em um dos testes, ele analisou um manuscrito escrito à mão, identificou referências a Albert Einstein e explicou sua relevância.

O assistente orienta os usuários passo a passo, desde a configuração inicial até a ativação de recursos de proteção de dados.

Kimi VL Visual Agent Model Do Not Track

Além disso, o sistema atua como um assistente de software, interpretando interfaces gráficas e automatizando tarefas digitais. Em testes envolvendo navegação em menus de navegador e mudanças de configurações, a Moonshot AI afirma que o modelo superou diversos outros sistemas, inclusive o GPT-4o.

Design compacto e resultados competitivos

Comparado a outros modelos open-source, como o Qwen2.5-VL-7B e o Gemma-3-12B-IT, o Kimi-VL se mostra mais eficiente. Segundo a empresa, ele lidera em 19 de 24 benchmarks, mesmo operando com muito menos parâmetros ativos. Em testes como o MMBench-EN e o AI2D, o modelo atinge ou supera pontuações geralmente observadas em sistemas maiores e comerciais.

moonshot ai kimi vl thinking perf

O Kimi-VL-Thinking, com apenas 2,8 bilhões de parâmetros ativos, supera modelos maiores no benchmark MathVision.

A empresa atribui grande parte desse desempenho à sua abordagem de treinamento. Além do afinamento supervisionado padrão, o Kimi-VL utiliza técnicas de aprendizado por reforço. Uma versão especializada, chamada Kimi-VL-Thinking, foi treinada para executar etapas de raciocínio mais prolongadas, elevando o desempenho em tarefas que exigem um pensamento complexo, como o raciocínio matemático.

Kimi VL Benchmark Comparison instruct perf scaled 1

O Kimi-VL-A3B alcança escores elevados em tarefas de processamento de vídeo e documentos.

Apesar dos avanços, o Kimi-VL ainda apresenta limitações. Seu tamanho atual restringe o desempenho em tarefas altamente intensivas em linguagem ou em áreas muito específicas, e desafios técnicos permanecem para contextos extremamente longos, mesmo com a janela de contexto expandida.

A Moonshot AI afirma que há planos para desenvolver versões maiores do modelo, incorporar mais dados de treinamento e aprimorar o processo de fine-tuning. O objetivo de longo prazo é criar um sistema poderoso, mas ao mesmo tempo eficiente em termos de recursos, adequado para aplicações no mundo real tanto em pesquisas quanto na indústria.

No início deste ano, a Moonshot AI lançou o Kimi k1.5, um modelo multimodal para raciocínio complexo que, segundo a empresa, se equipara ao GPT-4o em diversos benchmarks. O Kimi k1.5 está disponível na interface web do kimi.ai, e uma demonstração do Kimi-VL pode ser acessada no Hugging Face.