Microsoft revela Fara-7B, um modelo compacto para controle de computadores com IA rodando localmente

O novo modelo Fara-7B da Microsoft é um sistema de IA compacto, desenvolvido para operar interfaces dos usuários exclusivamente por meio de informações visuais. Apesar de seu tamanho reduzido, ele foi criado para acompanhar sistemas muito mais complexos enquanto roda diretamente em dispositivos de consumo, reduzindo a latência e aumentando a privacidade, já que os dados permanecem no dispositivo.

Baseado no Qwen2.5-VL-7B da Alibaba, o Fara-7B depende exclusivamente de dados visuais. Em vez de acessar árvores de acessibilidade ou processar HTML, o modelo funciona diretamente a partir de capturas de tela da interface. Ele opera em um ciclo contínuo de observação, reflexão e ação, prevendo coordenadas de clique ou gerando comandos de teclado conforme necessário. Para decidir o que fazer a seguir, o sistema utiliza as três últimas capturas de tela, ações anteriores e a entrada do usuário.

Microsoft Fara 7B Computer Use Figure 3 2048x691 1

Um dos grandes desafios enfrentados por esses agentes de uso computacional é a escassez de dados de treinamento utilizáveis, já que registrar trajetórias de cliques de forma manual é extremamente demorado. Para contornar esse problema, a Microsoft implementou um pipeline de dados sintéticos.

Microsoft Fara 7B Computer Use Figure 2 2048x1079 1

A empresa gera esses dados sintéticos permitindo que um sistema multiagente resolva tarefas e, em seguida, verifique os resultados. Utilizando seu framework interno, o Magentic-One, a Microsoft automatizou a criação de soluções de tarefas: um agente orquestrador elabora planos passo a passo, enquanto um agente “WebSurfer” os executa. Foram coletadas aproximadamente 145.000 trajetórias, com um milhão de etapas ao total, e esse conhecimento foi condensado no menor modelo Fara-7B. Além disso, a empresa lançou um novo benchmark, o WebTailBench, para cobrir tipos de tarefas que eram pouco representados em testes anteriores, abrangendo comparações de preços e pesquisas de emprego.

Eficiência que desafia modelos maiores

Nos benchmarks realizados, o Fara-7B demonstra desempenho impressionante para seu tamanho. No teste WebVoyager, o modelo alcançou uma taxa de sucesso de 73,5%, superando o modelo UI-TARS-1.5-7B e até mesmo o GPT-4o da OpenAI nesse cenário específico. Avaliações independentes, realizadas por revisores humanos, indicaram uma taxa de sucesso de 62%.

Screenshot 2025 11 26 at 15 26 05 Fara 7B An Efficient Agentic Model for Computer Use Microsoft Research

Adicionalmente, a Microsoft destaca a eficiência do Fara-7B. Em média, o modelo conclui tarefas em aproximadamente 16 etapas, enquanto outros modelos concorrentes, como o UI-TARS, demandam cerca de 41 etapas, o que afeta diretamente o custo operacional.

Microsoft Fara 7B Computer Use model accuracy vs cost v2 1 1 scaled 1

A Microsoft alerta, entretanto, que o modelo ainda pode cometer erros, interpretar instruções de forma equivocada e ser suscetível a alucinações. Para mitigar esses riscos, o sistema é programado para interromper sua execução em pontos críticos – como antes de enviar um e-mail ou iniciar uma transação financeira –, possibilitando que o usuário confirme a ação.

O modelo está disponível como uma versão experimental com pesos abertos sob licença MIT e pode ser acessado por meio do Hugging Face e do Microsoft Foundry, além de poder ser testado localmente em PCs com Windows 11 equipados com o Copilot+. Diversas empresas, como OpenAI, Anthropic, Google e Manus AI, também têm investido no desenvolvimento de agentes de interface movidos por IA. Muitos desses agentes, no entanto, ainda lidam com tarefas de maneira lenta ou falham completamente, sem oferecer ganhos efetivos de eficiência, e permanecem vulneráveis a problemas como a injeção de comandos. Um caminho promissor é ir além das interfaces puramente visuais, oferecendo aos agentes superfícies de interação especificamente projetadas para eles. Pesquisadores já estão explorando conceitos padronizados de interação para agentes, o que pode aumentar significativamente a eficiência e a segurança dos sistemas de uso computacional movidos a IA.