Uma equipe de pesquisadores da LAION anunciou o lançamento do OpenFlamingo, um framework de código aberto para treinar e avaliar modelos multimodais de grande escala (LMMs) capazes de processar e raciocinar sobre imagens, vídeos e textos.

O OpenFlamingo é uma reprodução do modelo Flamingo, desenvolvido pela DeepMind, que usa resamplers Perceiver e camadas de atenção cruzada para lidar com diferentes modalidades de entrada.

O projeto tem como objetivo desenvolver um sistema multimodal que possa realizar diversas tarefas de visão-linguagem, como responder perguntas visuais, gerar legendas e classificar imagens.

O OpenFlamingo é baseado em duas implementações anteriores do Flamingo, feitas por Lucidrains e David Hansmair, e usa dois conjuntos de dados de código aberto para treinar seus modelos: o Multimodal C4 e o LAION-2B.

O Multimodal C4 é uma expansão do conjunto de dados C4, usado para treinar os modelos T5, que inclui imagens e textos intercalados coletados da web. O LAION-2B é um conjunto de dados multimodais que contém mais de 2 bilhões de pares imagem-texto extraídos do Instagram.

A equipe também disponibilizou um checkpoint do seu modelo OpenFlamingo-9B, construído a partir do LLaMA 7B e do CLIP ViT/L-14.

Esse modelo ainda está em desenvolvimento, mas já demonstra o potencial do projeto. A equipe avaliou o modelo em várias tarefas downstream, como o COCO e o VQAv2, e obteve resultados promissores, embora ainda inferiores aos do Flamingo original.

A equipe ressalta que o OpenFlamingo-9B é um artefato de pesquisa e não um produto finalizado, e que pode produzir resultados indesejados, inadequados, ofensivos ou imprecisos.

A equipe também reconhece os riscos éticos e sociais de liberar esses modelos, e defende cautela e avaliações rigorosas antes de usá-los em qualquer aplicação real.

A equipe incentiva a comunidade a participar do processo de desenvolvimento, fornecendo feedback e contribuindo para o repositório.

O OpenFlamingo é um projeto ambicioso que visa igualar o poder e a versatilidade do GPT-4 no tratamento de entradas visuais e textuais.

A equipe espera que o OpenFlamingo ajude a impulsionar o progresso na aprendizagem multimodal, e promete mais contribuições interessantes no futuro. Para saber mais sobre o projeto, visite o repositório do GitHub e o demo.