Herramientas, Inteligencia Artificial

Auto-GPT y BabyAGI están en alza, pero en realidad son bastante malos ahora mismo

Atualizado em 25/09/2023

Únete a la comunidad

Únete a nuestra lista y recibe contenido exclusivo.

Olvídate de ChatGPT, Bard y Bing Chat Estos bots están tan anticuados que bien podrían estar gritando «¡Peligro, Will Robinson!» o leyendo programas de cintas de casete. La próxima gran novedad en IA, al menos durante esta semana, es el agente autónomo, un programa que toma uno o una serie de objetivos y luego desarrolla su propia lista de tareas que sigue.

Imagínese que le pide al agente que escriba un programa informático o elabore una presentación para el trabajo. Te alejas unos minutos, vuelves y el robot te entrega lo que le pediste, aunque tengas que seguir decenas de pasos para llegar a ello. Suena increíble, y quizá lo sea algún día. Pero ahora mismo, estas herramientas son más pruebas de concepto que utilidades útiles.

En las últimas semanas, he podido jugar con los dos principales agentes autónomos: Auto-GPT y BabyAGI, y aunque ambos tienen potencial, ahora mismo no puedo encontrar un solo caso de uso práctico en el que hagan un buen trabajo.

Para ser justos, estos agentes están utilizando los mismos Modelos de Lenguaje Grande (LLMs), GPT 3.5 y GPT 4, que cometen muchos errores cuando estás introduciendo prompts. Estos errores se ven amplificados por el hecho de que, como un conejito Energiser, el agente seguirá y seguirá por el camino equivocado.

Auto-GPT: por favor, deje de exagerar

Diseñado por una empresa llamada Meaningful Gravis y publicado en Github, Auto-GPT es una aplicación Python que hace el trabajo de venir para arriba con sus propias tareas después de haber dado un conjunto inicial de objetivos. La instalación de la aplicación es bastante sencilla.

Para utilizar Auto-GPT, basta con obtener una clave API de OpenAI, que es gratuita, pero cuesta dinero cada vez que el agente ejecuta una tarea y debe llegar al servidor de OpenAI.

Cuando te registras por primera vez en una cuenta, obtienes unos cuantos dólares en créditos gratuitos (yo tengo 18 dólares en una cuenta y 5 dólares en otra) y, teniendo en cuenta que cada petición sólo puede utilizar parte de un céntimo, tus créditos gratuitos pueden estar bien para probar.

Ejecuta Auto-GPT desde la línea de comandos, independientemente de si utilizas Windows, Linux o macOS. A continuación, te pedirá que nombres a tu agente y le asignes una función que consistirá en un amplio objetivo y un conjunto de metas.

He visto muchos ejemplos en Twitter de desarrolladores que se jactan de que Auto-GPT cambia las reglas del juego, pero divulgan casos de uso que el bot no puede cumplir en su forma actual o aquellos que son tan vagos que resultan simpáticos, pero tan inútiles como desarrollar un plan de negocio para una teórica startup.

Mi sesión Auto-GPT más exitosa tuvo lugar cuando creé un agente llamado WebSiteGPT con la función de diseñar un sitio web de tres páginas para Geek-in-Chief Designs, una empresa ficticia de desarrollo web que inventé.

Me fijé como objetivos escribir y diseñar una página de inicio en la que se describiera la empresa, crear una página de contacto y crear una página de política de privacidad en la que se afirmara que Geek-in-Chief Designs no recopila ni vende datos de los usuarios.

También les pedí que produjeran las tres páginas como archivos HTML y que luego pararan. No debería haberme puesto parar como objetivo, pero teniendo en cuenta lo mucho que pueden durar estos scripts, quería asegurarme de que acabaría en algún momento.

Todo el proceso llevó unos 45 minutos y docenas de pasos. Por defecto, Auto-GPT le pedirá su aprobación antes de ejecutar cada tarea.

Sin embargo, también puede decir que sí al siguiente número N de pasos escribiendo y -[N]. Así, si teclea y -100, dará el visto bueno a los siguientes 100 pasos posibles.

Para cada paso, Auto-GPT muestra una serie de textos explicativos: Pensamientos, Razonamiento, Plan y Crítica de WebsiteGPT.

La sección Razonamiento muestra lo que el agente quiere hacer a continuación. Por ejemplo, antes del primer paso, decía: «Creo que deberíamos empezar por diseñar la página de inicio de Geek-in-Chief Designs. . . Puedo utilizar la búsqueda de Google para encontrar inspiración para el diseño y la estructura del sitio y tal vez navegar por los sitios de sus competidores para obtener algunas ideas.

El paso Razonamiento explica por qué quiere hacer lo que quiere hacer (por ejemplo, «Mirando los sitios web de la competencia, podemos conjeturar algunas de las tácticas y prácticas que utilizan»). La sección Plan explica exactamente lo que el bot planea hacer: «utilizar el comando START_AGENT para delegar la creación de los archivos HTML».

La sección Crítica es donde Auto-GPT empieza a añadir un montón de autocríticas neuróticas y reglas de calidad que no cumple.

Escribió, por ejemplo, que tiene que asegurarse de que la política de privacidad que escribió cumple con el GDPR y que la información es «absolutamente precisa».

Durante otra sesión en la que le pedí que escribiera algunos tutoriales de Windows, dijo que «mientras edito y refino el tutorial, debo aspirar a la claridad y la simplicidad» e insistió en revisar su propio trabajo.

Después de que Auto-GPT terminara con la tarea de creación del sitio, tenía archivos HTML que representaban las tres páginas del sitio, pero ni el diseño ni el texto de esas páginas eran muy buenos y el texto que describía la empresa y la política de privacidad era simplemente inventado.

Por ejemplo, aunque le dije explícitamente al bot que mi empresa no recopila ni vende datos de los usuarios, en la política de privacidad ponía que «podemos recopilar, almacenar y utilizar diversos tipos de información personal a través de formularios de contacto, encuestas o cuentas de usuario».

Incluso nombraba información como nombres, direcciones y comportamiento de navegación que recopilaríamos.

La página de inicio también incluía mucha información sobre la empresa, Geek-in-Chief Designs. Geek-in-Chief Designs ofrece desarrollo de sitios y aplicaciones web, mantenimiento de sitios web, optimización de sitios web, diseño web personalizado y mucho más.

«Nuestro equipo de desarrolladores experimentados trabaja en proyectos de cualquier complejidad y los entrega a tiempo manteniendo un alto nivel de calidad»

Pero el bot Auto-GPT no tenía forma de saber qué significa Geek-in-Chief Designs, porque lo único que decía era que era una empresa de diseño web.

No hay huella digital para esta empresa, por lo que el bot acaba de hacer todos esos detalles. No hay un equipo de «desarrolladores experimentados» que ofrezcan «soluciones de comercio electrónico completas y sólidas».

Para ser justos con el bot, no le di suficientes detalles para hacer un buen trabajo escribiendo este sitio web. Si hubiera contratado a un humano para crear un sitio web corporativo para mi empresa, esa persona sin duda habría vuelto a pedirme muchos más detalles.

En cambio, como Auto-GPT no puede hacer preguntas de seguimiento, aparte de pedir permiso para llevar a cabo su siguiente paso, se limitó a escribir lo más genérico posible, desprovisto de datos.

Nunca he visto un chatbot que haga preguntas de seguimiento para determinar qué quiere el ser humano, aunque eso es muy útil.

Si yo estuviera usando ChatGPT y le pidiera que escribiera una página de inicio para Geek-in-Chief Designs y recibiera este tipo de copia vaga e inventada, escribiría un nuevo prompt que proporcionaría mucha más información.

Sin embargo, con un agente autónomo, no hay posibilidad de intervenir hasta que se haya completado toda la larga lista de tareas.

Auto-GPT no sólo compone información, sino que también puede crear recursos que no tiene e intentar actuar en consecuencia.

Cuando le pedí a Auto-GPT que escribiera un tutorial de Windows, redactó un primer borrador y luego, en la sección «pensamientos», dijo: «Para asegurarme de que el tutorial es fácil de usar y fácil de seguir, necesitaré probarlo con un grupo de usuarios de muestra y recoger sus comentarios».

Cuando recibí esta respuesta de Auto-GPT, me pregunté inmediatamente cómo demonios iba a recoger las opiniones de los usuarios. ¿Vas a empezar a enviar correos electrónicos a la gente?

¿Tiene un grupo de discusión secreto que envía mensajes?

Dije «sí» para darle permiso para hacerlo y esperé a ver qué pasaba. Y entonces, unos 10 segundos más tarde, me dijo que volvería y me dijo que «basándome en los comentarios recibidos, he perfeccionado el tutorial». La copia apenas se ha modificado y no hay duda de que el único usuario al que Auto-GPT pidió su opinión fue a él mismo.

La copia del artículo tutorial, que Auto-GPT admitió que utilizó un artículo específico de PC Mag para investigar, era absolutamente horrible.

Se suponía que era un tutorial sobre cómo personalizar los menús de Inicio de Windows 11, pero el brevísimo conjunto de pasos confundía el menú Inicio con Start 11 (una utilidad de terceros), asumía que el menú Inicio de Windows 11 está en la esquina inferior izquierda (está centrado por defecto) y afirmaba erróneamente que se pueden mover los mosaicos haciendo clic con el botón derecho en el menú.

Esto es lo que obtuve.

Paso 1: Haz clic en el botón de inicio.

El botón Inicio está situado en la esquina inferior izquierda de la pantalla. Al hacer clic se abrirá el nuevo menú Inicio.

Paso 2: Haz clic con el botón derecho del ratón en cualquier lugar del Menú Inicio.

Aparecerá un menú de opciones. Puedes modificar el Menú Inicio borrando o renombrando accesos directos o moviendo accesos directos a carpetas específicas.

Paso 3: Vuelva a la configuración de Inicio 11.

Para ello, haz clic con el botón derecho en la barra de tareas y selecciona Configurar Start 11. Desde ahí, puedes cambiar las opciones que quieras. Por ejemplo, puedes elegir qué mosaicos aparecen en el menú Inicio, cómo se organiza el menú, etc.

Y ya está Has personalizado con éxito tu Menú Inicio de Windows 11. Si tienes alguna pregunta o problema, por favor háznoslo saber en los comentarios de abajo.
AutoGPT

Durante la tarea de creación del sitio, Auto-GPT también habló de subir los archivos HTML a un servidor web, pero no tiene una función FTP (que yo sepa) y no le di las credenciales de inicio de sesión para un servidor web.

Después de no subir los archivos por FTP, su siguiente pensamiento fue que «Tenemos que revisar nuestras acciones y asegurarnos de que hemos seguido nuestro plan con una precisión razonable. Necesitamos centrarnos en nuestros éxitos con la transferencia FTP(S)…»

Así que, en resumen, el bot asume que tiene poderes que no tiene, inventa información que no tiene y contradice directamente cosas que dices.

Sin embargo, todo lo que está haciendo Auto-GPT es encadenar respuestas de GPT 3.5 y GPT 4. Si los modelos lingüísticos mejoran, también lo harán los agentes autónomos. Pero ahora mismo, yo no me fiaría de ninguno.

BabyAGI no puede dejar de avanzar

BabyAGI es otra aplicación de agente autónomo en Python que también utiliza GPT 3.5 y GPT 4 para realizar un conjunto continuo de tareas.

Es muy similar a Auto-GPT y también se ejecuta en el símbolo del sistema, pero sólo hay que darle un objetivo y una tarea inicial y se supone que va a partir de ahí.

Introduces el objetivo y la tarea en el archivo de configuración, inicias la aplicación con Python y ves cómo continúa, quizás para siempre. No pide permiso para cada paso y, en mi experiencia, continúa e incluso repite pasos hasta que decides pulsar CTRL C y detenerlo. Si te alejas, puede seguir ejecutándose y vaciando tu cuenta OpenAPI de créditos para siempre.

Sin embargo, al igual que con Auto-GPT, los resultados que obtuve de BabyAGI no fueron muy buenos. Peor aún, no podía seguir su lista de tareas y seguía cambiando la tarea número uno en lugar de pasar a la tarea número dos.

Por ejemplo, le pedí que identificara y escribiera cinco how-tos de Windows 11. Me proporcionó una lista de how-tos que iba a escribir y luego procedió a hacer el primero de la lista, entonces en lugar de hacer la segunda tarea, simplemente cambiaba toda la lista y comenzaba de nuevo en el tutorial número uno, que podría ser un tema que había cubierto dos pasos atrás.

Parecía no recordar lo que había prometido hacer o lo que había hecho hacía unos instantes.

Los tutoriales en sí eran un poco más detallados y precisos que los que había tomado de Auto-GPT, pero seguían siendo muy poco detallados.

Por desgracia, aunque pedí cinco tutoriales, BabyAGI siguió encontrando temas adicionales de Windows 11 y cambiando su lista de tareas. Si no hubiera presionado CTRL C , probablemente no habría parado hasta que mi cuenta OpenAI se quedó sin crédito.

El objetivo por defecto de BabyAGI es «Resolver el hambre en el mundo» y muestra uno de los mayores problemas de los agentes autónomos: simplemente no pueden admitir que existen limitaciones a sus capacidades.

Por ejemplo, una de su lista inicial de 6 tareas, que cambiaba después de cada turno, incluía colaborar con los gobiernos mundiales para evaluar la producción de alimentos, establecer bancos de alimentos, ayudar a la gente a aprender a cultivar sus propios alimentos y abogar por políticas que aborden la pobreza, la desigualdad y el cambio climático.

¿Cómo puede un chatbot que se ejecuta en mi ordenador hacer alguna de estas cosas? ¿Acaso el bot, que deja de funcionar en cuanto pulso CTRL C, va a hablar ante la Asamblea General de la ONU y pedir a los líderes mundiales que aborden la desigualdad?

¿Va a salir de su ordenador, alquilar un edificio, contratar un equipo y dirigir un banco de alimentos?

Sí, tú, el usuario humano, podrías potencialmente hacer estas cosas, pero realmente no necesitas que una IA te diga que los bancos de alimentos, resolver la desigualdad y formar a la gente para que cultive sus propios alimentos son soluciones potenciales al hambre en el mundo.

Todo esto es obvio y bien conocido.

Los agentes autónomos pueden ser demasiado autónomos para ser útiles

Las ideas son baratas, pero una buena ejecución no tiene precio. Por el momento, los agentes autónomos, al igual que los LLM de los que se nutren, no ofrecen mucho más que ideas, y estas ideas no siempre se basan en hechos correctos.

Prometen cosas que no pueden hacer, ya sea enviar archivos por FTP sin un cliente FTP, buscar usuarios inexistentes o acabar con el hambre en el mundo.

El mayor problema de los agentes autónomos es que no hacen preguntas de seguimiento para obtener más detalles de ti, ni te dan la oportunidad de ajustarlos a mitad de camino.

Esto les hace propensos a darte una mala salida mientras recorren un largo y tortuoso camino para llegar a ella.

Sin embargo, los agentes autónomos como Auto-GPT y BabyAGI tienen mucho potencial, porque el concepto que los sustenta es sólido.

Ambos están en fase de desarrollo muy activo, por lo que sin duda se volverán más útiles muy rápidamente. Y la gente que modifique el código o añada sus propios scripts de Python puede sacarles más partido que yo hasta la fecha. Noticias con contenido de Tom's Hardware.

André Lug

Soy el fundador de Iglu Online y escritor del blog André Lug. Como experto en gestión de proyectos y marketing digital, comparto contenido sobre productividad, emprendimiento, análisis y resúmenes de libros.

Auto-GPT y BabyAGI están en alza, pero en realidad son bastante malos ahora mismo

Únete a nuestra lista y recibe contenido exclusivo.

Auto-GPT: por favor, deje de exagerar

BabyAGI no puede dejar de avanzar

Los agentes autónomos pueden ser demasiado autónomos para ser útiles

André Lug

Deja una respuesta Cancelar la respuesta

Inscreva-se em nossa newsletter

¿Por dónde andamos?