Como parte de su viaje a Europa, el CEO de OpenAI, Sam Altman, actualizó el roadmap de OpenAI.

Según Altman, la falta de poder computacional está retrasando los planes a corto plazo de OpenAI y generando quejas de los clientes sobre la confiabilidad de la API de OpenAI.

La escasez de GPUs también limita la capacidad de afinar los modelos mediante la API, según él. OpenAI aún no utiliza métodos más eficientes de afinamiento, como la adaptación de baja clasificación (LoRA), que ha sido muy útil para la comunidad de código abierto.

La versión de ventana de contexto de 32k del GPT-4 tampoco puede ser implementada aún debido a la falta de poder computacional, y el acceso a modelos privados con presupuestos superiores a $100,000 está limitado. Sin embargo, Altman cree que una ventana de contexto de hasta un millón de tokens será posible este mismo año.

Según Altman, cualquier avance más allá de eso requerirá resolver el problema de escala «O(n^2)» para la atención del modelo de Transformer: a medida que el tamaño de la ventana de contexto aumenta, la cantidad de cálculos necesarios aumenta exponencialmente al cuadrado del número de tokens. Duplicar el tamaño de la ventana de contexto cuadriplica los cálculos, triplicarla aumenta nueve veces, y así sucesivamente. Según Altman, resolver este problema requerirá un descubrimiento científico.

Hacer que el GPT-4 sea más económico

Reducir el costo de cómputo del GPT-4 es una prioridad máxima para OpenAI. Con la transición del GPT-3 al GPT-3.5 y al ChatGPT, OpenAI logró reducir significativamente el costo de cómputo. Esto se ha trasladado a los clientes a través de costos considerablemente más bajos en la API.

Los modelos más recientes estarán disponibles dentro del año a través de la API de ajuste fino, así como una nueva API que puede recordar conversaciones anteriores para no tener que enviarlas nuevamente en cada llamada a la API. Esto reducirá aún más los costos.

Por otro lado, según Altman, es poco probable que los complementos del ChatGPT se incluyan en la API. Él cree que es más interesante tener el ChatGPT en aplicaciones que tener aplicaciones en el ChatGPT. Según Altman, los complementos, excepto para navegación, aún no tienen una adaptación adecuada al mercado.

En este contexto, Altman asegura que OpenAI no tiene planes de lanzar otros productos además del ChatGPT, ya que prefieren no competir con su comunidad de desarrolladores. La visión para el ChatGPT es optimizar las APIs de OpenAI y proporcionar un asistente inteligente. Hay muchas otras aplicaciones para modelos de lenguaje que OpenAI no abordará.

El modo multimodal no estará disponible antes de 2024

Para el próximo año, la OpenAI tiene en su agenda la implementación de la multimodalidad. La multimodalidad implica que un modelo de IA puede procesar imágenes, así como texto, y en el futuro, posiblemente audio, video o modelos 3D.

La OpenAI ya ha demostrado en el lanzamiento del GPT-4 que el modelo puede, en principio, procesar imágenes, es decir, generar texto o código basado en imágenes. Sin embargo, debido a la limitación de las GPUs mencionada anteriormente, esta funcionalidad no está disponible en este momento.

No se sabe si la OpenAI está trabajando en modelos multimodales adicionales. Se espera que el GPT-5 añada más multimodalidad, pero según Altman, no se iniciará su entrenamiento en los próximos seis meses. Por lo tanto, Google Deepmind puede tener una ventaja inicial en la multimodalidad con su modelo Gemini.

Altman también comentó sobre su reciente declaración sobre el «fin de una era de modelos de IA gigantes», afirmando que la OpenAI seguirá intentando entrenar modelos más grandes y que la ley de escala sigue siendo aplicable, es decir, los modelos más grandes prometen un mejor rendimiento. Sin embargo, los modelos no se duplicarán o triplicarán de tamaño cada año, ya que eso no es sostenible.