Esqueça ChatGPT, Bard e Bing Chat! Esses bots estão tão desatualizados que podem muito bem estar gritando “Perigo, Will Robinson!” ou lendo programas de fitas cassete. A próxima grande coisa em IA, pelo menos para esta semana, é o agente autônomo, um programa que leva um ou uma série de objetivos e, em seguida, desenvolve sua própria lista de tarefas que segue.
Imagine pedir ao agente para escrever um programa de computador ou desenvolver uma apresentação para o trabalho. Você se afasta por alguns minutos, volta e o bot entrega o que você pediu, mesmo que tenha que passar por dezenas de etapas para chegar lá. Isso soa incrível e talvez seja um dia. Mas agora, essas ferramentas são mais provas de conceito do que utilitários úteis.
Nas últimas semanas, pude jogar com os dois principais agentes autônomos: Auto-GPT e BabyAGI e, embora ambos tenham potencial, agora não consigo encontrar um único caso de uso prático em que eles façam um bom trabalho.
Para ser justo, esses agentes estão apenas usando os mesmos Grandes Modelos de Linguagem (LLMs), GPT 3.5 e GPT 4, que cometem muitos erros quando você está entrando nos prompts. Esses erros são amplificados pelo fato de que, como um Coelho Energizador, o agente continuará indo e indo no caminho errado.
Auto-GPT: Por favor, pare de exagerar
Projetado por uma empresa chamada Gravis Significativo e postado no Github, Auto-GPT é um aplicativo Python que faz o trabalho de chegar a suas próprias tarefas depois de ter dado um conjunto inicial de metas. Instalar o aplicativo é bastante fácil.
Para usar o Auto-GPT, você só precisa obter uma chave de API OpenAI, que é livre para obter, mas custa dinheiro toda vez que o agente executa uma tarefa e deve atingir o servidor OpenAI.
Quando você se inscreve pela primeira vez em uma conta, você recebe alguns dólares em crédito gratuito (eu tenho US $ 18 em uma conta e US $ 5 em outra) e, considerando que cada solicitação pode usar apenas parte de um centavo, seus créditos gratuitos podem ser ok para experimentar.
Execute o Auto-GPT a partir da linha de comando, independentemente de estar usando o Windows, Linux ou macOS. Em seguida, ele pede que você nomeie seu agente e dê a ele um papel que seja um objetivo amplo e um conjunto de metas.
Eu vi muitos exemplos no Twitter de desenvolvedores se gabando de que o Auto-GPT é um divisor de águas, mas divulgando casos de uso que o bot não pode realizar em sua forma atual ou aqueles que são tão vagos a ponto de serem fofos, mas inúteis como desenvolver um plano de negócios para uma startup teórica.
Minha sessão Auto-GPT mais bem sucedida ocorreu quando eu criei um agente chamado WebSiteGPT com o papel de projetar um site de três páginas para Geek-in-Chief Designs, uma empresa de desenvolvimento web fictícia que eu inventei.
Eu defino como objetivos escrever e projetar uma página inicial que descreva a empresa, criar uma página de contato e criar uma página de política de privacidade que diga que os projetos Geek-in-Chief não coletam ou vendem dados do usuário.
Eu também pedi para produzir todas as três páginas como arquivos HTML e depois parar. Eu não deveria ter definido parar como um objetivo, mas considerando quanto tempo esses scripts podem durar, eu queria ter certeza de que acabaria eventualmente.
Todo o processo levou cerca de 45 minutos e dezenas de passos. Por padrão, o Auto-GPT solicitará sua aprovação antes de executar cada tarefa.
No entanto, você também pode dizer sim para o próximo número N de etapas digitando y -[N]. Então, você digita y -100, será bom ir para os próximos 100 passos possíveis.
Para cada etapa, o Auto-GPT exibia uma série de textos explicativos: Pensamentos, Raciocínio, Plano e Crítica do WebsiteGPT.
A seção Raciocínio mostra o que o agente quer fazer a seguir. Por exemplo, antes do primeiro passo, dizia: “Acho que devemos começar projetando a página inicial para Geek-in-Chief Designs . . . Posso usar a pesquisa do Google para encontrar inspiração para o design e a estrutura do site e talvez navegar nos sites de seus concorrentes para obter algumas ideias.
A etapa de Raciocínio explica por que ele quer fazer o que quer fazer (ex: “Ao examinar os sites dos concorrentes, podemos supor algumas das táticas e práticas que eles usam”). A seção Plano explica exatamente o que o bot planeja fazer – “use o comando START_AGENT para delegar a criação dos arquivos HTML”.
A seção Crítica é onde o Auto-GPT começa a adicionar um monte de autocríticas neuróticas e regras de qualidade que não cumprem.
Ele escreveu, por exemplo, que tem que se certificar de que a política de privacidade que escreveu estava em conformidade com o GDPR e que as informações são “absolutamente precisas”.
Durante outra sessão em que pedi que ele escrevesse alguns tutoriais do Windows, ele disse que “enquanto editava e refinava o tutorial, eu deveria buscar clareza e simplicidade” e insistiu em revisar seu próprio trabalho.
Depois que o Auto-GPT foi feito com a tarefa de construção de sites, eu realmente tinha arquivos HTML representando as três páginas do site, mas nem o design nem a cópia nessas páginas eram muito bons e a cópia descrevendo a empresa e a política de privacidade era simplesmente inventada.
Por exemplo, embora eu tenha dito explicitamente ao bot que minha empresa não coleta ou vende dados de usuários, ela escreveu na política de privacidade que “Podemos coletar, armazenar e usar vários tipos de informações pessoais por meio de formulários de contato, pesquisas ou contas de usuário.
Ele até nomeou informações como nomes, endereços e comportamento de navegação que coletaríamos.
A página inicial também compôs um monte de coisas sobre a empresa, Geek-in-Chief Designs. Geek-in-Chief Designs fornece desenvolvimento de sites e aplicativos web, manutenção de sites, otimização de sites, web design personalizado e muito mais.
“Nossa equipe de desenvolvedores experientes trabalha em projetos de qualquer complexidade e os entrega no prazo, mantendo um alto nível de qualidade.”
Mas o bot Auto-GPT não tinha como saber o que Geek-in-Chief Designs significa, porque tudo o que eu disse foi que era uma empresa de web design.
Não há pegada digital para esta empresa, então o bot apenas inventou todos esses detalhes. Não há uma equipe “de desenvolvedores experientes” que ofereça “soluções de comércio eletrônico abrangentes e robustas”.
Para ser justo com o bot, eu não dei detalhes suficientes para fazer um bom trabalho ao escrever este site. Se eu tivesse contratado um humano para criar um site corporativo para minha empresa, essa pessoa sem dúvida teria voltado para mim, pedindo muito mais detalhes.
Em vez disso, como o Auto-GPT não pode fazer perguntas de acompanhamento, além de pedir permissão para realizar seu próximo passo, ele apenas escreveu a coisa mais genérica possível, desprovida de fatos.
Eu nunca vi um chatbot que faz perguntas de acompanhamento para determinar o que o ser humano quer, mesmo que isso seja muito útil.
Se eu estivesse usando o ChatGPT e pedisse que ele escrevesse uma página inicial para o Geek-in-Chief Designs e recebesse esse tipo de cópia vaga e inventada, eu escreveria um novo prompt que forneceria muito mais informações.
No entanto, com um agente autônomo, não há chance de intervir até que toda a longa lista de tarefas seja concluída.
Não só o Auto-GPT compõe informações, mas também pode criar recursos que não possui e tentar agir sobre eles.
Quando pedi ao Auto-GPT para escrever um tutorial do Windows, ele escreveu um primeiro rascunho e, em seguida, na seção “pensamentos”, disse: “Para garantir que o tutorial seja fácil de usar e fácil de seguir, precisarei testá-lo em um grupo de amostra de usuários e coletar feedback”.
Quando recebi essa resposta do Auto-GPT, imediatamente me perguntei como diabos iria reunir o feedback do usuário. Vai começar a mandar e-mails para as pessoas?
Tem um grupo de foco secreto que envia mensagens?
Eu disse “sim” para lhe dar permissão para fazer isso e esperei para ver o que aconteceria. E então, cerca de 10 segundos depois, ele disse que voltou e disse que “com base no feedback recebido, refinei o tutorial.A cópia mal foi alterada e não há dúvida de que o único usuário que o Auto-GPT pediu feedback foi ele mesmo.
A cópia do artigo tutorial, que o Auto-GPT admitiu que usou um artigo específico do PC Mag para pesquisar, foi absolutamente horrível.
Era para ser um tutorial sobre como personalizar os menus Iniciar do Windows 11, mas o conjunto muito breve de etapas confundiu o menu Iniciar com o Iniciar 11 (um utilitário de terceiros), assumiu que o menu Iniciar do Windows 11 está no canto inferior esquerdo (é centralizado por padrão) e afirmou erroneamente que você pode mover os blocos clicando com o botão direito do mouse no menu.
Aqui está o que eu tenho.
Step 1: Click the Start Button.
The Start Button is located in the bottom-left corner of the screen. Clicking it will open the new Start Menu.
Step 2: Right-click anywhere in the Start Menu.
This will bring up a menu of options. You can modify the Start Menu by deleting or renaming shortcuts or by moving shortcuts to specific folders.
Step 3: Return to the Start 11 settings.
You can do this by right-clicking the taskbar and selecting Configure Start 11. From there, you can change any options you want. For example, you can choose what tiles appear on the Start Menu, how the menu is organized, and more.
That's it! You have successfully customized your Windows 11 Start Menu. If you have any questions or issues, please let us know in the comments below.
AutoGPT
Durante a tarefa de construção do site, o Auto-GPT também falou sobre o upload dos arquivos HTML para um servidor web, mas ele não tem uma função FTP (que eu saiba) e eu não dei credenciais de login para um servidor web.
Depois de não FTPing os arquivos, seu próximo pensamento foi que “Precisamos rever nossas ações e garantir que seguimos o nosso plano com precisão razoável. Precisamos nos concentrar em nossos sucessos com a transferência de FTP(S) …”
Então, em suma, o bot assume que tem poderes que não tem, inventa informações que não tem e contradiz diretamente as coisas que você diz.
No entanto, tudo o que o Auto-GPT está fazendo é encadear as respostas do GPT 3.5 e GPT 4. Se os modelos de linguagem melhorarem, os agentes autônomos também melhorarão. Mas agora, eu não confiaria em um.
BabyAGI simplesmente não pode parar de avançar
O BabyAGI é outro aplicativo Python de agente autônomo que também usa GPT 3.5 e GPT 4 para realizar um conjunto contínuo de tarefas.
É muito semelhante ao Auto-GPT e também é executado no prompt de comando, mas você apenas dá um objetivo e apenas uma tarefa inicial e é suposto ir de lá.
Você insere o objetivo e a tarefa no arquivo de configuração, inicia o aplicativo com Python e assiste a ele continuar, talvez para sempre. Ele não solicita permissão para cada etapa e, na minha experiência, continua e até repete etapas até que você decida pressionar CTRL + C e pará-lo. Se você se afastar, ele pode continuar correndo e drenando sua conta OpenAPI de créditos para sempre.
No entanto, assim como com o Auto-GPT, os resultados que obtive do BabyAGI não foram ótimos. Pior ainda, não conseguia seguir sua lista de tarefas e continuava mudando a tarefa número um em vez de passar para a tarefa número dois.
Por exemplo, pedi para identificar e escrever cinco instruções do Windows 11. Ele forneceu uma lista de how-tos que iria escrever e, em seguida, passou a fazer o primeiro na lista, em seguida, em vez de fazer a segunda tarefa, ele só iria mudar toda a lista e começar de novo no tutorial número um, que poderia ser um tópico que tinha coberto duas etapas atrás.
Parecia não ter memória do que prometeu fazer ou tinha feito apenas alguns momentos antes.
Os tutoriais em si eram um pouco mais detalhados e precisos do que os que eu tirei do Auto-GPT, mas ainda eram muito leves nos detalhes.
Irritantemente, embora eu pedisse cinco tutoriais, o BabyAGI continuava encontrando tópicos adicionais do Windows 11 e alterando sua lista de tarefas. Se eu não tivesse PRESSIONADO CTRL + C , provavelmente não teria parado até que minha conta OpenAI ficasse sem crédito.
O objetivo padrão do BabyAGI é “Solve World Hunger” e mostra um dos maiores problemas com agentes autônomos: eles simplesmente não podem admitir que há limitações em suas habilidades.
Por exemplo, uma de sua lista inicial de 6 tarefas, que mudou após cada turno, incluiu a colaboração com os governos mundiais para avaliar a produção de alimentos, o estabelecimento de bancos de alimentos, ajudando as pessoas a aprender a cultivar seus próprios alimentos e defendendo políticas que abordam a pobreza, a desigualdade e as mudanças climáticas.
Como diabos um chatbot em execução no meu PC pode fazer qualquer uma dessas coisas? O bot, que imediatamente para de funcionar no momento em que eu clico em CTRL + C, vai falar na frente da assembleia geral da ONU e dizer aos líderes mundiais para abordar a desigualdade?
Ele vai pular do computador, alugar um prédio, contratar uma equipe e administrar um banco de alimentos?
Sim, você, o usuário humano, poderia potencialmente fazer essas coisas, mas você realmente não precisa de uma IA para lhe dizer que bancos de alimentos, resolver a desigualdade e treinar pessoas para cultivar seus próprios alimentos são soluções potenciais para a fome mundial.
Tudo isso é óbvio e bem conhecido.
Agentes autônomos podem autônomos demais para serem úteis
As ideias são baratas, mas uma boa execução não tem preço. No momento, os agentes autônomos, como os LLMs pelos quais são alimentados, não oferecem muito mais do que ideias, e essas ideias nem sempre são baseadas em fatos corretos.
Eles prometem coisas que não podem fazer, seja enviando arquivos via FTP sem um cliente FTP, pesquisando usuários inexistentes ou acabando com a fome mundial.
O maior problema dos agentes autônomos é que eles não fazem perguntas de acompanhamento para obter mais detalhes de você, nem lhe dão a oportunidade de ajustá-los no meio do fluxo.
Isso os torna aptos a fornecer uma saída ruim enquanto percorrem um caminho longo e sinuoso para chegar lá.
No entanto, agentes autônomos como Auto-GPT e BabyAGI têm uma tonelada de potencial, porque o conceito por trás deles é sólido.
Ambos estão em desenvolvimento muito ativo, então eles, sem dúvida, se tornarão mais úteis muito rapidamente. E as pessoas que modificam o código ou adicionam seus próprios scripts Python podem obter mais deles do que eu fiz até hoje. Notícia com conteúdo do Tom's Hardware.