En mayo, MosaicML lanzó lo que entonces era uno de los mejores modelos lingüísticos de código abierto, y ahora la startup sigue con una versión mayor y más potente.
Tras MPT-7B, MosaicML ha lanzado MPT-30B, su segundo gran modelo lingüístico de código abierto. El nuevo modelo tiene 30.000 millones de parámetros y MosaicML afirma que supera al GPT-3 de OpenAI, a pesar de tener aproximadamente una sexta parte del número de parámetros.
En algunas áreas, como la programación, se dice que supera a modelos de código abierto como LLaMA o Falcon de Meta, y en otras está a la par o ligeramente por debajo. Como siempre, esta información es difícil de verificar por el momento. Al igual que su predecesor, MPT-30B puede utilizarse con fines comerciales y se presenta en dos variantes: MPT-30-Instruct, un modelo entrenado para seguir instrucciones cortas, y el modelo de chatbot MPT-30B-Chat.
MPT-30B tiene una ventana contextual más larga
MPT-30B también se entrenó con secuencias más largas (hasta 8.000 tokens) que GPT-3, LLaMA o Falcon (2.000 tokens cada uno). La longitud del contexto, que es la mitad que la de la variante más reciente «GPT-3.5-turbo», lo hace adecuado para casos de uso en los que es necesario procesar simultáneamente mucho texto o código. Sin embargo, con optimizaciones adicionales, la longitud de la secuencia podría duplicarse fácilmente durante el ajuste fino o la inferencia, según MosaicML.
Como ejemplo, la empresa cita aplicaciones en sectores como la sanidad o la banca, que no desean facilitar sus datos a OpenAI. La ventana contextual ampliada podría utilizarse para interpretar los resultados de pruebas de laboratorio y proporcionar información sobre el historial médico de un paciente analizando diferentes datos.
MosaicML se dirige a la plataforma propietaria de OpenAI
También se dice que MPT-30B es más eficiente desde el punto de vista computacional que Falcon o LLaMA, ya que funciona en una sola tarjeta de vídeo con 80 gigabytes de memoria. Naveen Rao, cofundador y director general de MosaicML, explicó que el modelo Falcon, con sus 40.000 millones de parámetros, no podía ejecutarse en una sola GPU.
Sin embargo, Rao considera que las plataformas propietarias como OpenAI son la verdadera competencia; los proyectos de código abierto son, en última instancia, todos del mismo equipo, afirmó. Subraya que los modelos de lenguaje de código abierto están «acortando distancias con estos modelos de código cerrado». El GPT-4 de OpenAI sigue siendo claramente superior, dijo, pero ha llegado el momento de «cruzar el umbral en el que estos modelos son realmente muy útiles».