Na segunda-feira, a Amazon revelou o Nova Act, um agente de IA de uso geral que pode assumir o controle de um navegador web e realizar, de forma autônoma, algumas ações simples. Em conjunto com o novo modelo de IA agente, a empresa está lançando o Nova Act SDK, um kit de ferramentas que permite que desenvolvedores construam protótipos de agentes utilizando o Nova Act.
O Nova Act, desenvolvido pelo laboratório AGI da Amazon recentemente inaugurado em São Francisco, também será responsável por recursos-chave da próxima atualização do Alexa+, versão aprimorada com IA generativa do popular assistente de voz da empresa. A versão disponibilizada a partir de hoje é menos refinada, sendo tratada pela Amazon como uma prévia de pesquisa.
Desenvolvedores podem acessar o kit de ferramentas do Nova Act por meio de um novo site, nova.amazon.com, que também funciona como vitrine para os diversos modelos fundamentais Nova da Amazon.
O Nova Act representa a tentativa da Amazon de enfrentar o Operator da OpenAI e o Computer Use da Anthropic com sua própria tecnologia de agente de IA. Várias empresas de tecnologia líderes acreditam que agentes de IA capazes de navegar na web para os usuários tornarão os chatbots atuais significativamente mais úteis.
Embora a Amazon possa não ser a primeira a desenvolver esse tipo de tecnologia agente, por meio do Alexa+ ela poderá atingir o maior alcance.
A empresa afirma que os desenvolvedores que utilizarem o Nova Act SDK poderão automatizar ações básicas em nome dos usuários, como pedir saladas do Sweetgreen ou fazer reservas para jantar. Com esse kit, é possível reunir ferramentas que permitem a um agente de IA navegar por páginas web, preencher formulários ou selecionar datas em um calendário.
De acordo com a Amazon, o Nova Act supera os agentes da OpenAI e da Anthropic em vários testes internos. Por exemplo, no ScreenSpot Web Text – que avalia a forma como um agente de IA interage com o texto na tela – o Nova Act obteve 94%, superando o CUA da OpenAI (88%) e o Claude 3.7 Sonnet da Anthropic (90%).
No entanto, a empresa não realizou testes com métodos de avaliação mais comuns para agentes, como o WebVoyager.
O Nova Act é o primeiro produto público a emergir do laboratório AGI da Amazon, uma iniciativa co-liderada pelos ex-pesquisadores da OpenAI, David Luan e Pieter Abbeel. Ambos já haviam fundado suas próprias startups — Luan criou a Adept, enquanto Abbeel co-fundou a Covariant — antes de serem contratados pela Amazon, no ano passado, para conduzir seus esforços nessa área.
Embora possa parecer inusitado que um laboratório de AGI esteja desenvolvendo agentes de IA capazes de, por exemplo, fazer pedidos no Sweetgreen, Luan afirmou que enxerga esses agentes como um passo fundamental rumo à criação de sistemas de IA superinteligentes. Ele define AGI como “um sistema de IA que pode ajudar você a fazer qualquer coisa que um humano faz em um computador”.
Luan acrescenta que sua equipe projetou o Nova Act SDK para automatizar com confiabilidade tarefas curtas e simples, oferecendo aos desenvolvedores ferramentas para definir exatamente quando desejam que um humano intervenha em um fluxo de trabalho. Ele espera que isso possibilite a criação de aplicações de agentes mais confiáveis, mesmo que não totalmente autônomas.
A Amazon está lançando seu primeiro agente de IA generalista em um mercado bastante competitivo, uma tecnologia crucial sobre a qual a empresa aposta intensamente. Os primeiros testes do Nova Act podem oferecer um vislumbre das capacidades do tão aguardado Alexa+, representando um momento decisivo para os esforços de IA da empresa.
Um grande desafio enfrentado pelos primeiros agentes de IA desenvolvidos pela OpenAI, Google e Anthropic é a sua consistência em diferentes domínios. Em testes realizados, os sistemas se mostraram lentos, com dificuldade para operar de forma independente por períodos prolongados e propensos a cometer erros que um humano dificilmente cometeria. Em breve, veremos se a Amazon conseguiu decifrar esse desafio ou se seus agentes exibirão as mesmas falhas observadas nos concorrentes.