O Projeto Ring combina modelos de linguagem e imagem em um dispositivo vestível de IA que observa o mundo por meio de uma câmera e comenta sobre ele com uma voz gerada por IA.
A forma mais simples de descrever o Projeto Ring é como uma versão vestível do Google Lens com controles de voz. Segundo a desenvolvedora Mina Fahmi, o projeto tem como objetivo “demonstrar interações de baixo atrito que misturam informações físicas e digitais entre humanos e IA”.
Para isso, Fahmi construiu um minicomputador de pulso com uma câmera e um joystick que pode analisar visualmente o ambiente em tempo real usando um modelo de imagem para texto chamado Replicate, descrevê-lo em texto e fazer comentários sobre ele por meio do ChatGPT.
O texto é convertido em fala usando o serviço de texto para fala da Eleven Labs, que é então transmitido para fones de ouvido de condução óssea por meio de um smartphone Android. Os fones de ouvido possuem um microfone embutido que permite ao usuário falar de volta para o dispositivo vestível, por exemplo, para fazer perguntas sobre o ambiente. A voz do usuário é convertida em texto usando o Whisper da OpenAI, para que o ChatGPT possa responder com observações mais ou menos inteligentes. Todos os dados são processados na Google Cloud.
“O Projeto Ring dá a sensação de ter um amigo curioso em seu ombro – alguém que vê o mundo como você e sussurra pensamentos em seu ouvido de forma discreta”, escreve Fahmi.
GPT-4 escreve código para o dispositivo vestível, mas “não foi fácil”
Fahmi afirma que gerou todo o código para o Projeto Ring usando o GPT-4. Ao todo, o modelo de linguagem gerou cerca de 750 linhas de código. Isso inclui um script em Python para o Raspberry Pi, um aplicativo em nuvem, um site e um aplicativo Android.
Fahmi tem experiência em programação, mas diz que não escreveu nenhum código há anos. Ele acredita que seu projeto mostra que é possível, embora não seja fácil, usar o GPT-4 para programar protótipos de software completos.
Sua experiência em programação o ajudou a fazer com que o GPT-4 fizesse correções nos lugares certos ou a montar o código corretamente copiando e colando. Segundo Fahmi, o GPT-4 ocasionalmente perdia o contexto e precisava ser realinhado. O código também era instável, não era eficiente nem pronto para produção, ele disse.
Apesar dessas limitações, a IA “pode ser capaz de automatizar a grande maioria das tarefas de programação em um período de tempo relativamente curto”, especula Fahmi.
Fahmi trabalha com IA e interfaces humano-computador na Meta, e anteriormente trabalhou na CTRL-Labs, a startup adquirida pela Meta em 2019. A Meta está desenvolvendo uma pulseira com base na tecnologia da CTRL-Labs, que pode traduzir ondas cerebrais em comandos precisos para o computador em tempo real.