Microsoft descobre que agentes de API são mais rápidos, mas agentes GUI são mais flexíveis

Pesquisadores da Microsoft compararam agentes de IA baseados em API e agentes baseados em GUI, descobrindo que cada abordagem possui pontos fortes distintos e que ambos podem trabalhar bem juntos.

Agentes de API interagem com o software por meio de interfaces programáveis. Em contrapartida, agentes GUI imitam a forma como os humanos utilizam o software, navegando por menus e clicando em botões na tela. Por exemplo, para agendar um compromisso, um agente de API pode acionar uma única função, enquanto um agente GUI abriria o aplicativo de calendário, encontraria a tela correta e preencheria o formulário manualmente.

Microsoft Research GUI API Agents Calendar Event Creation Observation

Como os dois tipos de agentes se comparam

Os pesquisadores avaliaram ambos os tipos de agentes em nove categorias. Uma das principais diferenças é a forma como interagem com o software: os agentes de API utilizam chamadas de funções, enquanto os agentes GUI dependem do conteúdo visual da tela. Como resultado, os agentes de API são geralmente mais estáveis e menos propensos a erros, além de serem mais eficientes, pois tarefas complexas podem ser concluídas em um único passo. Por outro lado, agentes GUI precisam executar múltiplas ações para atingir o mesmo objetivo, o que lhes confere uma versatilidade maior, já que podem controlar praticamente qualquer software que possua uma interface visual, mesmo sem oferecer uma API.

Microsoft Research API GUI Agents Dimensions Table

Enquanto agentes de API demonstram maior confiabilidade, também são menos adaptáveis. Agentes GUI, que operam através do conteúdo da tela, conseguem lidar com interfaces desconhecidas ou em constante mudança, tornando-se especialmente úteis quando se trabalha com funcionalidades novas ou que sofrem atualizações frequentes. Em termos de segurança, agentes de API apresentam vantagem, já que o acesso pode ser restrito no nível da função. Em contrapartida, agentes GUI geralmente interagem com toda a interface de uma vez, o que pode representar um desafio.

A manutenção também é facilitada pelas APIs, beneficiando-se do controle de versões, enquanto os agentes GUI são mais frágeis, podendo ser afetados por pequenas alterações visuais. Contudo, a transparência é maior nos agentes GUI, pois o usuário pode visualizar cada ação realizada, tornando o processo mais auditável.

Segundo os pesquisadores, agentes GUI são particularmente úteis para tarefas que exigem confirmação visual. Em um exemplo, um agente GUI gera um relatório financeiro navegando pelos menus e definindo parâmetros, exatamente como faria um usuário humano.

Três maneiras de combinar agentes GUI e API

A Microsoft apresenta três estratégias para integrar ambos os tipos de agentes em sistemas híbridos. A primeira abordagem utiliza “wrappers” de API para ocultar as ações da GUI por trás de uma interface programável. Por exemplo, um processo de múltiplas etapas, como a geração de um relatório financeiro, pode ser encapsulado em uma única função GenerateReport(). Nos bastidores, o “wrapper” continua realizando todas as ações na interface, mas para os desenvolvedores, aparece uma API limpa.

A segunda estratégia utiliza ferramentas de orquestração para coordenar as etapas de API e GUI em um fluxo de trabalho único. Em um cenário de solicitação de crédito, as APIs são utilizadas para consultas a banco de dados e verificações de crédito, enquanto ações na GUI cuidam de tarefas como o envio de e-mails. Uma ferramenta experimental da Microsoft, UFO, segue esse modelo, priorizando as APIs e recorrendo a interações na GUI quando necessário.

Microsoft Research GUI API Agents Unified Orchestration Tools 770x452 1

A terceira abordagem envolve plataformas de low-code e no-code, que permitem que usuários não técnicos construam automações por meio de interfaces com recursos de arrastar e soltar. No funcionamento interno, o sistema decide se utiliza API ou ações na GUI, conforme o que estiver disponível.

A Microsoft vê os avanços recentes na IA multimodal como um importante facilitador para esses sistemas híbridos. Melhorias na IA visual e em modelos transformer podem tornar os agentes GUI mais robustos, enquanto novas ferramentas estão simplificando o desenvolvimento de APIs. Juntos, esses avanços podem levar a formas de automação mais flexíveis, que desfocam a linha entre a integração front-end e back-end.

Escolhendo o agente certo para a tarefa

O estudo apresenta diretrizes claras sobre quando utilizar cada tipo de agente. Agentes de API são indicados para tarefas onde o desempenho é crucial, especialmente quando se trabalha com interfaces bem documentadas, além de serem ideais para ambientes que demandam alta segurança, onde o acesso precisa ser estritamente controlado. A recomendação é utilizar agentes de API para operações de back-end e acesso a banco de dados, garantindo comunicação direta e eficiente.

Em contrapartida, agentes GUI são mais adequados para sistemas legados que não dispõem de APIs. Aplicativos mobile, por exemplo, que frequentemente restringem o acesso a APIs externas, também se beneficiam dessa abordagem. Agentes GUI se mostram especialmente úteis para tarefas que requerem inspeção visual, como testes de interface.

Microsoft Research API GUI Agents Strategic Considerations Table

Sistemas híbridos oferecem flexibilidade e podem evoluir à medida que novas APIs se tornam disponíveis. Dessa forma, organizações podem começar utilizando agentes GUI e, com o tempo, migrar gradualmente para APIs, escolhendo a arquitetura mais adequada para o sucesso da automação a longo prazo.

Crescimento do momentum para agentes GUI

Outras empresas também estão explorando maneiras de otimizar a interação da IA com o software. Por exemplo, a Anthropic lançou recentemente um framework open source chamado Model Context Protocol (MCP), que atua como um tradutor universal entre sistemas de IA e fontes de dados. Esse protocolo já está sendo utilizado para controlar aplicações como o Blender, que antes demandavam integrações customizadas para cada tarefa.

Ao mesmo tempo, agentes GUI estão ganhando espaço no setor de consumo. Essa tendência faz sentido, pois tais agentes podem, em teoria, lidar com uma ampla variedade de tarefas simplesmente operando o software da mesma forma que um ser humano faria. Novos agentes, como o ChatGPT Operator e o assistente de IA chinês Manus, já utilizam interfaces visuais para completar fluxos de trabalho que antes exigiam entrada manual.