Sam Altman dice que la estrategia de investigación que dio origen al ChatGPT está quedando obsoleta y los avances futuros en inteligencia artificial requerirán nuevas ideas.
Las impresionantes capacidades del ChatGPT, el chatbot de la startup OpenAI, han generado un gran interés e inversión en inteligencia artificial. Sin embargo, la semana pasada, el CEO de OpenAI advirtió que la estrategia de investigación detrás del bot está llegando a su fin. No está claro de dónde vendrán exactamente los avances futuros.
En los últimos años, OpenAI ha logrado avances significativos en IA basada en lenguaje, tomando algoritmos de aprendizaje automático existentes y escalándolos a un tamaño antes inimaginable. El GPT-4, el proyecto más reciente, probablemente se haya entrenado utilizando billones de palabras de texto y miles de potentes chips de computadora. El proceso ha costado más de $100 millones.
Sin embargo, el CEO de la compañía, Sam Altman, dice que no se lograrán más avances simplemente haciendo los modelos más grandes. «Creo que estamos llegando al final de la era en la que estos modelos gigantes serán la solución», dijo a una audiencia en un evento celebrado en el MIT la semana pasada. «Vamos a mejorarlos de otras formas».
La declaración de Altman sugiere un cambio inesperado en la carrera por desarrollar e implementar nuevos algoritmos de IA. Desde que OpenAI lanzó el ChatGPT en noviembre, Microsoft ha utilizado la tecnología subyacente para agregar un chatbot a su motor de búsqueda Bing, y Google ha lanzado un chatbot rival llamado Bard. Muchas personas han estado ansiosas por probar la nueva generación de chatbots para ayudar con el trabajo o tareas personales.
Mientras tanto, numerosas startups bien financiadas, incluyendo Anthropic, AI21, Cohere y Character.AI, están invirtiendo recursos considerables en la construcción de algoritmos cada vez más grandes en un esfuerzo por alcanzar la tecnología de OpenAI. La versión inicial del ChatGPT se basaba en una versión ligeramente mejorada del GPT-3, pero los usuarios ahora también pueden acceder a una versión impulsada por el GPT-4, que es más capaz.
La declaración de Altman sugiere que el GPT-4 podría ser el último gran avance que surge de la estrategia de OpenAI de hacer modelos más grandes y alimentarlos con más datos. No mencionó qué tipo de estrategias o técnicas de investigación podrían tomar su lugar. En el artículo que describe el GPT-4, OpenAI señala que sus estimaciones sugieren rendimientos decrecientes al aumentar el tamaño del modelo. Altman también mencionó que hay límites físicos en la cantidad de centros de datos que la empresa puede construir y la rapidez con la que puede hacerlo.
Nick Frosst, cofundador de Cohere que anteriormente trabajó en IA en Google, dice que la idea de Altman de que el crecimiento no funcionará indefinidamente es cierta. También cree que el progreso en los transformers, el tipo de modelo de aprendizaje automático en el corazón del GPT-4 y sus competidores, va más allá de la escala. «Hay muchas formas de mejorar y hacer más útiles los transformers, y muchas de ellas no implican agregar parámetros al modelo», afirma. Frosst dice que nuevas arquitecturas y ajustes basados en la retroalimentación humana son direcciones prometedoras que muchos investigadores ya están explorando.
Cada versión de la influyente familia de algoritmos de lenguaje de OpenAI consiste en una red neuronal artificial, un software inspirado vagamente en la forma en que los neuronas trabajan juntas, que se entrena para predecir las palabras que deben seguir a una determinada secuencia de texto.
El primero de estos modelos de lenguaje, GPT-2, se anunció en 2019. En su forma más grande, tenía 1.5 mil millones de parámetros, una medida del número de conexiones ajustables entre sus neuronas artificiales crudas.
En ese momento, esto era extremadamente grande en comparación con los sistemas anteriores, gracias en parte a que los investigadores de OpenAI descubrieron que la ampliación hacía que el modelo fuera más coherente. Y la compañía llevó esto un paso más allá con el GPT-3, anunciado en 2020, que era aún más grande, con 175 mil millones de parámetros. Las amplias capacidades de este sistema para generar poemas, correos electrónicos y otros textos ayudaron a convencer a otras empresas e instituciones de investigación a desarrollar sus propios modelos de IA del mismo tamaño o incluso más grandes.
Después del lanzamiento del ChatGPT en noviembre, expertos en tecnología y creadores de memes especularon que el GPT-4, cuando se lanzara, sería un modelo de un tamaño y complejidad asombrosos. Sin embargo, cuando OpenAI finalmente anunció el nuevo modelo de IA, la empresa no reveló cuán grande es, tal vez porque el tamaño ya no lo es todo. En el evento del MIT, a Altman se le preguntó si el entrenamiento del GPT-4 había costado $100 millones; él respondió: «Es más que eso».
Aunque OpenAI ha mantenido en secreto el tamaño y el funcionamiento interno del GPT-4, es probable que parte de su inteligencia provenga de mirar más allá de la escala. Es posible que haya utilizado un enfoque llamado aprendizaje reforzado con retroalimentación humana, que se utilizó para mejorar el ChatGPT. Esto implica que los humanos juzguen la calidad de las respuestas del modelo para guiarlo hacia la generación de respuestas de mayor calidad.
Las notables capacidades del GPT-4 han sorprendido a algunos expertos y han generado debates sobre el potencial de la IA para transformar la economía, pero también para propagar desinformación y eliminar empleos. Algunos expertos en IA, empresarios tecnológicos como Elon Musk y científicos han escrito recientemente una carta abierta pidiendo una pausa de seis meses en el desarrollo de algo más poderoso que el GPT-4.
En el MIT la semana pasada, Altman confirmó que su empresa actualmente no está desarrollando el GPT-5. «Una versión anterior de la carta afirmaba que OpenAI está entrenando GPT-5 en este momento», dijo. «No lo estamos haciendo, y no lo haremos por un tiempo».