El ChatGPT puede leer 4.096 tokens, mientras que el LongNet puede leer mil millones. Esto podría permitir que los modelos Transformer procesen partes completas de la web simultáneamente.

La longitud de secuencia en modelos Transformer desempeña un papel importante en el entrenamiento y especialmente en la implementación: longitudes de secuencia más largas permiten una ventana de contexto amplia donde, por ejemplo, un modelo de lenguaje pueda procesar y generar más texto, o un Transformer de visión pueda capturar más información en una imagen.

Un gran problema al aumentar la longitud de secuencia es que la relación entre la longitud de secuencia y la potencia de procesamiento requerida es cuadrática en la arquitectura estándar del Transformer, lo que lleva a un rápido aumento de la potencia de procesamiento necesaria.

El LongNet procesa 250.000 veces más tokens que el ChatGPT

Sin embargo, es posible lograr longitudes de secuencia más largas a través de varias optimizaciones: ChatGPT de OpenAI tiene una ventana de contexto de 4.096 tokens, equivalente a aproximadamente 3.000 palabras. Sin embargo, hay variantes del GPT-3.5-turbo con alrededor de 8.000 tokens, y el modelo más grande, GPT-4, tiene alrededor de 32.000 tokens. Con Claude, Anthropic ofrece un modelo comercialmente disponible con alrededor de 100.000 tokens.

Con LongNet, Microsoft está demostrando un método que escala de manera lineal y, según el equipo, puede alcanzar mil millones de tokens, lo que es 250.000 veces más largo que ChatGPT. Esto equivale a aproximadamente 750.000.000 de palabras o 2.000.000 de páginas.

El equipo logra este avance a través de un mecanismo de atención adaptativo llamado «atención dilatada». En este caso, la asignación de atención disminuye exponencialmente a medida que aumenta la distancia entre los tokens, de modo que la red observa las relaciones entre los tokens cercanos con la misma atención que un mecanismo de atención estándar, pero aplica patrones de atención más amplios a los tokens más distantes.

LongNet permite el procesamiento de conjuntos de datos del tamaño de la web

En una prueba, el equipo utiliza LongNet para entrenar un modelo de generación de voz con hasta 32.000 tokens y lo compara con enfoques basados en transformadores clásicos. Según el equipo, LongNet demuestra las leyes de escala conocidas de los modelos de transformadores clásicos; por ejemplo, la perplejidad del modelo disminuye a medida que se vuelve más grande.

En el futuro, LongNet podría permitir el procesamiento de conjuntos de datos del tamaño de la web, afirmó el equipo. La gran ventana de contexto también proporciona una memoria y un campo receptivo amplios para los modelos, lo que es relevante para su interacción con personas o con el mundo. Una ventana de contexto más grande también contiene caminos de causalidad y razonamiento más complejos que los modelos pueden explorar en los datos de entrenamiento, lo que puede resultar en modelos con una mejor capacidad de generalización. LongNet también permite explorar los límites del aprendizaje en contexto, afirmó el equipo, «lo que tiene el potencial de ser un cambio de paradigma para el aprendizaje con muchos ejemplos, ya que un contexto extremadamente largo puede ayudar a los modelos a mitigar el olvido catastrófico».

Por ahora, LongNet es solo un concepto de prueba

Aún no está claro si LongNet realmente puede cumplir estas promesas; el artículo carece de comparaciones con modelos de lenguaje modernos, como GPT-4 32k, y métricas verdaderamente significativas, como precisión o evaluaciones humanas. En este aspecto, LongNet es inicialmente un estudio de viabilidad; será necesario mostrar en trabajos futuros si estas longitudes de secuencia gigantescas traen ventajas reales.

En el futuro, el equipo planea utilizar LongNet para otras aplicaciones, como modelos de lenguaje multimodal a gran escala o modelado de datos genómicos.