Le projet Ring combine des modèles de langage et d’image dans un dispositif portable d’IA qui observe le monde à l’aide d’une caméra et le commente à l’aide d’une voix générée par l’IA.
La façon la plus simple de décrire le projet Ring est de le considérer comme une version portable de Google Lens avec des commandes vocales. Selon le développeur Mina Fahmi, le projet vise à « démontrer des interactions à faible friction qui mélangent des informations physiques et numériques entre les humains et l’IA ».
Pour ce faire, Mina Fahmi a construit un mini-ordinateur de poignet doté d’une caméra et d’un joystick capable d’analyser visuellement l’environnement en temps réel à l’aide d’un modèle image-texte appelé Replicate, de le décrire en texte et de le commenter via ChatGPT.
Le texte est converti en parole à l’aide du service de synthèse vocale d’Eleven Labs, puis transmis à un casque à conduction osseuse par l’intermédiaire d’un smartphone Android. Le casque est équipé d’un microphone intégré qui permet à l’utilisateur de répondre au dispositif portable, par exemple pour poser des questions sur l’environnement. La voix de l’utilisateur est convertie en texte à l’aide de Whisper d’OpenAI, de sorte que ChatGPT peut répondre par des remarques plus ou moins intelligentes. Toutes les données sont traitées dans le nuage de Google.
« Le projet Ring vous donne l’impression d’avoir un ami curieux sur votre épaule – quelqu’un qui voit le monde comme vous et vous chuchote discrètement des pensées à l’oreille », écrit M. Fahmi.
GPT-4 écrit le code de l’appareil portable, mais « ce n’était pas facile »
M. Fahmi affirme avoir généré tout le code du projet Ring à l’aide de GPT-4. Au total, le modèle de langage a généré environ 750 lignes de code. Cela comprend un script Python pour le Raspberry Pi, une application en nuage, un site web et une application Android.
Fahmi a de l’expérience en programmation, mais il dit ne pas avoir écrit de code depuis des années. Il estime que son projet montre qu’il est possible, même si ce n’est pas facile, d’utiliser le GPT-4 pour programmer des prototypes logiciels complets.
Son expérience de la programmation l’a aidé à faire en sorte que GPT-4 apporte des corrections aux bons endroits ou qu’il assemble le code correctement par copier-coller. Selon Fahmi, GPT-4 perdait parfois le contexte et devait être réaligné. Le code était également instable et n’était ni efficace ni prêt pour la production.
Malgré ces limites, l’IA « pourrait être en mesure d’automatiser la grande majorité des tâches de programmation dans un laps de temps relativement court », estime M. Fahmi.
Fahmi travaille sur l’IA et les interfaces homme-machine chez Meta, et a précédemment travaillé chez CTRL-Labs, la startup acquise par Meta en 2019. Meta développe un bracelet basé sur la technologie de CTRL-Labs, qui peut traduire les ondes cérébrales en commandes précises pour l’ordinateur en temps réel.