Se dice que el GPT-4 de OpenAI se basa en la arquitectura de Mezcla de Expertos y tiene 1,76 billones de parámetros.

Se especula que GPT-4 se basa en ocho modelos, cada uno con 220.000 millones de parámetros, que se enlazan entre sí en la arquitectura de Mezcla de Expertos (MoE). Esta idea tiene casi 30 años y se ha utilizado en grandes modelos lingüísticos, como el Switch Transformer de Google.

El modelo MoE es un tipo de aprendizaje por conjuntos que combina diferentes modelos, llamados «expertos», para tomar una decisión. En un modelo MoE, una red de selección determina el peso de la salida de cada experto en función de la entrada. Esto permite a los distintos expertos especializarse en diferentes partes del espacio de entrada. Esta arquitectura es especialmente útil para conjuntos de datos grandes y complejos porque puede dividir eficazmente el espacio del problema en subespacios más sencillos.

Aunque no hay ninguna declaración oficial de OpenAI, los rumores se consideran fiables

La información sobre GPT-4 procede de George Hotz, fundador de Comma.ai, una startup de conducción autónoma. Hotz es un experto en IA y también es conocido por su experiencia en piratería informática: fue el primero en descifrar la seguridad del iPhone y de la Playstation 3 de Sony.

Otros expertos en IA también han comentado el perfil de Hotz en Twitter, afirmando que lo más probable es que su información sea cierta.

¿Qué puede aprender el código abierto del GPT-4?

La arquitectura puede haber simplificado el entrenamiento del GPT-4 al permitir que diferentes equipos trabajen en partes diferentes de la red. Esto también explicaría por qué OpenAI pudo desarrollar las capacidades multimodales del GPT-4 de manera independiente al producto actualmente disponible y lanzarlas por separado. Sin embargo, se especula que el GPT-4 podría haber sido fusionado en un modelo más pequeño para ser más eficiente, como mencionó Soumith Chintala, uno de los fundadores de PyTorch.

Hotz también especuló que el GPT-4 produce no solo una salida, sino iterativamente 16 salidas que se mejoran en cada iteración.

La comunidad de código abierto ahora podría intentar replicar esta arquitectura; las ideas y la tecnología han estado disponibles durante algún tiempo. Sin embargo, el GPT-4 puede haber mostrado hasta dónde puede llegar la arquitectura MoE con los datos de entrenamiento adecuados y los recursos informáticos necesarios.