OpenAI ha presentado GPT-4 como un modelo multimodal con comprensión de imágenes, pero aún no ha publicado la parte de imágenes del modelo. MiniGPT-4 está disponible desde hoy como modelo de código abierto.

MiniGPT-4 es un chatbot con comprensión de imágenes. Se trata de una función que OpenAI introdujo en el lanzamiento de GPT-4, pero que aún no se ha publicado fuera de la aplicación Be my Eyes.

Al igual que su homólogo de mayor tamaño, MiniGPT-4 puede describir imágenes o responder a preguntas sobre el contenido de una imagen: por ejemplo, dada una imagen de un plato preparado, el modelo puede producir una receta (posiblemente) correspondiente (véase la imagen destacada) o generar una descripción adecuada de la imagen para personas con discapacidad visual. Al igual que la nueva función «/describe» de Midjourney, MiniGPT-4 puede extraer indicaciones de las imágenes, o al menos algunas ideas. Según los investigadores, la alabada función de conversión de imágenes en páginas web de OpenAI, introducida en el lanzamiento de GPT-4, también puede realizarse con MiniGPT-4.

demonstração do minigpt-4
MiniGPT-4 genera el código HTML correspondiente a partir de un boceto de página web dibujado a mano. Imagen: Zhu, Chen et al.

«Nuestros hallazgos revelan que MiniGPT-4 procesa muchas funciones similares a las que presenta GPT-4, como la generación de descripciones detalladas de imágenes y la creación de páginas web a partir de bocetos escritos a mano», afirma el artículo.

El equipo de desarrollo ha puesto a disposición de los usuarios el código, las demostraciones y las instrucciones de entrenamiento de MiniGPT-4 en Github. También anuncian una versión más pequeña del modelo que funcionará con una sola tarjeta gráfica Nvidia 3090. El siguiente vídeo muestra algunos ejemplos.

La IA de código abierto está en alza

Lo más destacable del MiniGPT-4 es que se basa en el Vicuna-13B LLM y el BLIP-2 Vision Language Model, software de código abierto que puede entrenarse y ajustarse por relativamente poco dinero y sin una sobrecarga computacional y de datos masiva.

El equipo de investigación entrenó primero MiniGPT-4 con unos cinco millones de pares imagen-texto en diez horas con cuatro tarjetas Nvidia A100. En un segundo paso, el modelo se refinó con 3.500 pares texto-imagen de alta calidad generados por una interacción entre MiniGPT-4 y ChatGPT. ChatGPT corrigió las descripciones de imágenes incorrectas o imprecisas generadas por MiniGPT-4.

Corrija el error en el párrafo dado. Elimine las frases repetidas, los caracteres sin sentido, las frases que no estén en inglés, etc. Elimine las repeticiones innecesarias. Reescriba las frases incompletas. Devolver directamente los resultados sin explicación. Devuelve directamente el párrafo de entrada si ya es correcto sin explicación.

Consulta ChatGPT en MiniGPT-4

Esta segunda etapa mejoró notablemente la fiabilidad y facilidad de uso del modelo, y sólo requirió siete minutos de entrenamiento en una única Nvidia A100. Los propios investigadores se declararon sorprendidos por la eficacia de su método.

El modelo de lenguaje MiniGPT-4 Vicuna sigue la «fórmula de la alpaca» y utiliza los resultados de ChatGPT para afinar un modelo de lenguaje Meta de la familia LLaMA. Se dice que Vicuna está a la altura de Google Bard y ChatGPT, de nuevo con relativamente poco esfuerzo de entrenamiento.

MiniGPT-4 es otro ejemplo del rápido progreso que la comunidad de código abierto ha logrado en muy poco tiempo. Esto sugiere que la brecha para las empresas de modelos de IA pura puede no ser tan alta: ayer se lanzó el chatbot de código abierto OpenAssistant, entrenado con datos de instrucción recogidos de voluntarios y destinado a convertirse en una alternativa abierta a ChatGPT con el tiempo.

Dada esta evolución, tendría sentido que OpenAI se centrara primero en crear un ecosistema de socios que utilicen plugins de ChatGPT para GPT-4, en lugar de entrenar ahora a GPT-5. El esfuerzo de investigación y formación para un nuevo modelo puede ser mayor para OpenAI que la ventaja que puede obtener sobre sus competidores o la comunidad de código abierto. En comparación, construir un ecosistema de chat es más difícil y económicamente insostenible. También puede tener un fuerte efecto de bloqueo sobre los usuarios.