El Proyecto Ring combina modelos de lenguaje e imagen en un dispositivo vestible de IA que observa el mundo a través de una cámara y hace comentarios al respecto con una voz generada por IA.
La forma más sencilla de describir el Proyecto Ring es como una versión vestible de Google Lens con controles de voz. Según la desarrolladora Mina Fahmi, el proyecto tiene como objetivo «demostrar interacciones de baja fricción que mezclan información física y digital entre humanos e IA».
Para lograr esto, Fahmi construyó una mini computadora de muñeca con una cámara y un joystick que puede analizar visualmente el entorno en tiempo real utilizando un modelo de imagen a texto llamado Replicate, describirlo en texto y hacer comentarios al respecto a través de ChatGPT.
El texto se convierte en voz utilizando el servicio de texto a voz de Eleven Labs, que luego se transmite a través de unos auriculares de conducción ósea mediante un smartphone Android. Los auriculares tienen un micrófono incorporado que permite al usuario hablar de vuelta al dispositivo vestible, por ejemplo, para hacer preguntas sobre el entorno. La voz del usuario se convierte en texto utilizando Whisper de OpenAI, para que ChatGPT pueda responder con observaciones más o menos inteligentes. Todos los datos se procesan en la nube de Google.
«El Proyecto Ring te da la sensación de tener un amigo curioso en tu hombro, alguien que ve el mundo como tú y susurra pensamientos discretamente en tu oído», escribe Fahmi.
GPT-4 escribe el código para el dispositivo vestible, pero «no fue fácil»
Fahmi afirma que generó todo el código para el Proyecto Ring utilizando GPT-4. En total, el modelo de lenguaje generó alrededor de 750 líneas de código. Esto incluye un script en Python para la Raspberry Pi, una aplicación en la nube, un sitio web y una aplicación de Android.
Fahmi tiene experiencia en programación, pero dice que no ha escrito código en años. Él cree que su proyecto muestra que es posible, aunque no sea fácil, utilizar GPT-4 para programar prototipos de software completos.
Su experiencia en programación le ayudó a hacer que GPT-4 corrigiera los lugares adecuados o a ensamblar correctamente el código copiando y pegando. Según Fahmi, GPT-4 ocasionalmente perdía el contexto y necesitaba ser realineado. El código también era inestable, no era eficiente ni estaba listo para producción, según él.
A pesar de estas limitaciones, la IA «puede ser capaz de automatizar la gran mayoría de las tareas de programación en un período de tiempo relativamente corto», especula Fahmi.
Fahmi trabaja con IA e interfaces humano-computador en Meta, y anteriormente trabajó en CTRL-Labs, la startup adquirida por Meta en 2019. Meta está desarrollando una pulsera basada en la tecnología de CTRL-Labs, que puede traducir las señales cerebrales en comandos precisos para la computadora en tiempo real.