El miércoles, Stability AI lanzó una nueva familia de modelos lingüísticos de IA de código abierto llamada StableLM. Stability espera repetir los efectos catalizadores de su modelo de síntesis de imágenes de código abierto Stable Diffusion, lanzado en 2022. Una vez perfeccionado, StableLM puede utilizarse para crear una alternativa de código abierto a ChatGPT.
StableLM está disponible actualmente en formato alfa en GitHub con modelos de 3.000 y 7.000 millones de parámetros, a los que seguirán modelos de 15.000 y 65.000 millones de parámetros, según Stability. La empresa publica los modelos bajo licencia Creative Commons BY-SA-4.0, que exige que las adaptaciones den crédito al creador original y compartan la misma licencia.
Stability AI Ltd. es una empresa con sede en Londres que se ha posicionado como rival de código abierto de OpenAI, que, a pesar de su nombre «abierto», rara vez publica modelos de código abierto y mantiene los pesos de sus redes neuronales -la masa de números que define la funcionalidad básica de un modelo de IA- en propiedad.
«Los modelos lingüísticos constituirán la columna vertebral de nuestra economía digital, y queremos que todo el mundo tenga voz en su diseño», escribe Stability en una entrada introductoria de su blog. «Modelos como StableLM demuestran nuestro compromiso con una tecnología de IA transparente, accesible y solidaria».
Al igual que GPT-4, el gran modelo lingüístico (LLM) que impulsa la versión más potente de ChatGPT-StableLM genera texto mediante la predicción del siguiente token (fragmento de palabra) en una secuencia. Como resultado, StableLM puede componer textos similares a los humanos y escribir programas.
Al igual que otros LLM «pequeños» recientes, como LLaMA de Meta, Alpaca de Stanford, Cerebras-GPT y Dolly 2.0, StableLM pretende alcanzar un rendimiento similar al modelo de referencia GPT-3 de OpenAI, utilizando muchos menos parámetros: 7.000 millones para StableLM frente a 175.000 millones para GPT-3.
Los parámetros son variables que un modelo lingüístico utiliza para aprender de los datos de entrenamiento. Con menos parámetros, el modelo lingüístico es más pequeño y eficiente, lo que facilita su ejecución en dispositivos locales como teléfonos inteligentes y ordenadores portátiles. Sin embargo, conseguir un alto rendimiento con menos parámetros requiere una cuidadosa ingeniería, lo que supone un reto importante en el campo de la IA.
«Nuestros modelos StableLM pueden generar texto y código y alimentar diversas aplicaciones posteriores», afirma Stability. «Demuestran cómo modelos pequeños y eficientes pueden ofrecer un alto rendimiento con el entrenamiento adecuado»
Según Stability AI, StableLM fue entrenado en «un nuevo conjunto de datos experimental» basado en un conjunto de datos de código abierto llamado The Pile, pero tres veces más grande. Stability afirma que la «riqueza» de este conjunto de datos, cuyos detalles promete publicar más adelante, es responsable del «rendimiento sorprendentemente alto» del modelo en tamaños de parámetros más pequeños en tareas conversacionales y de codificación.
En nuestros experimentos informales con una versión mejorada del modelo 7B de StableLM construido para el diálogo basado en el método Alpaca, descubrimos que parecía rendir mejor (en términos de los resultados que cabría esperar, dada la indicación) que el modelo LLaMA del parámetro 7B en bruto de Meta, pero no al nivel de GPT-3. Las versiones de parámetros más grandes de StableLM pueden ser más flexibles y capaces.
En agosto del año pasado, Stability financió y publicó la versión de código abierto de Stable Diffusion, desarrollada por investigadores del grupo CompVis de la Universidad Ludwig Maximilian de Múnich.
Como modelo inicial de difusión latente de código abierto capaz de generar imágenes a partir de indicaciones, Stable Diffusion marcó el comienzo de una era de rápido desarrollo de la tecnología de síntesis de imágenes. También provocó una fuerte reacción entre artistas y empresas, algunas de las cuales demandaron a Stability AI. El paso de Stability a los modelos lingüísticos podría inspirar resultados similares.
Los usuarios pueden probar el modelo base StableLM de 7.000 millones de parámetros de Hugging Face y el modelo ajustado en Replicate. Además, Hugging Face alberga una versión de StableLM ajust ada al diálogo con un formato de conversación similar a ChatGPT.
Stability afirma que publicará un informe técnico completo sobre StableLM «en un futuro próximo».