Les chercheurs de Snapchat ont mis au point une nouvelle méthode d’imagerie IA sur les smartphones. Cela devrait permettre aux utilisateurs d’éliminer le matériel qui serait autrement nécessaire et de bénéficier d’une plus grande confidentialité.

Les versions récentes de l’IA d’imagerie, telles que Midjourney 5.1, Stable Diffusion XL et Adobe Firefly, ont porté la qualité des graphiques générés à un niveau supérieur. Toutefois, ces modèles présentent également des inconvénients indéniables : ils sont très volumineux et possèdent des architectures de réseau complexes, ce qui les rend gourmands en ressources informatiques et lents.

L’exécution de ces modèles à grande échelle nécessite des GPU très performants et une inférence basée sur le cloud, ce qui est coûteux et pose des problèmes de protection de la vie privée. Des chercheurs de Snap Inc, la société mère de Snapchat, et de l’université de Northeastern font actuellement la démonstration de SnapFusion. Ce modèle serait le premier à exécuter des modèles de diffusion sur un smartphone en moins de deux secondes.

como funciona o método
Image : Li et al.

Alors que le fabricant de puces Qualcomm a démontré en février qu’il pouvait générer des images d’IA sur un smartphone en moins de 15 secondes, SnapFusion fonctionne beaucoup plus rapidement, du moins sur l’iPhone 14 Pro.

Images comparables à Stable Diffusion v1.5

En introduisant une architecture de réseau plus efficace et moins d’étapes d’inférence, SnapFusion est capable de générer une image de 512 par 512 pixels à partir d’un texte d’entrée en un rien de temps, approchant la qualité de Stable Diffusion v1.5, selon l’équipe. Pour ce faire, SnapFusion n’a besoin que de huit étapes de suppression du bruit, alors que la méthode de Qualcomm en nécessite 20.

Une vidéo de démonstration des chercheurs montre SnapFusion en action sur l’iPhone 14 Pro, le smartphone le plus puissant d’Apple à ce jour. La méthode de Qualcomm n’était auparavant possible qu’avec sa dernière puce haute performance, le Snapdragon 8 Gen 2.

« Notre travail démocratise la création de contenu en mettant à la disposition des utilisateurs de puissants modèles de diffusion texte-image », déclarent les chercheurs pour expliquer leur motivation à travailler sur le projet. Cependant, SnapFusion est loin d’être parfait.

Selon les chercheurs, le modèle comporte encore un nombre relativement important de paramètres. De plus, dans un avenir proche, il faudra travailler pour que la technologie fonctionne sur d’autres smartphones que l’iPhone 14 Pro, afin de la rendre accessible à un plus grand nombre.

Snapchat a déjà une expérience de l’IA générative, mais plutôt dans l’espace textuel avec son chatbot personnel, My AI.