Meta ha diseñado un nuevo chip de IA para acelerar la ejecución de redes neuronales y un superordenador mejorado para acelerar la investigación en IA de la propia empresa.
El «Meta Training and Inference Accelerator» (MTIA) es una nueva familia de chips diseñados para acelerar y abaratar el rendimiento de procesamiento de las redes neuronales, lo que se denomina inferencia. Se espera que el chip esté en funcionamiento en 2025. De momento, Meta sigue confiando en las tarjetas gráficas de Nvidia en sus centros de datos.
Al igual que las unidades de procesamiento tensorial (TPU) de Google, MTIA es un circuito integrado de aplicación específica (ASIC) optimizado para la multiplicación de matrices y las funciones de activación de las redes neuronales. Según Meta, el chip puede manejar modelos de IA de complejidad baja y media mejor que una GPU.
Con Trainium e Inferentia, Amazon también ofrece acceso a chips de IA para entrenamiento y ejecución en la nube. Microsoft trabaja en colaboración con AMD para desarrollar chips de IA.
Research SuperCluster: el superordenador de IA RSC de Meta entra en su segunda fase
En enero de 2022, Meta presentó el superordenador de IA RSC, que, en aquel momento, afirmó que sería la base de Metaverse. Cuando esté completamente desarrollado, debería ser el superordenador más rápido especializado en cálculos de IA. La empresa lleva construyendo esta infraestructura desde 2020.
Según Meta, el RSC ha alcanzado ya su segunda fase, con 2.000 unidades Nvidia DGX A100 y 16.000 GPU Nvidia A100. El rendimiento máximo, según Meta, es de cinco exaflops. El RSC se utilizará para la investigación de IA en diversas áreas, incluida la IA generativa.
Una característica exclusiva del superordenador RSC es su capacidad para utilizar datos de los sistemas de producción de Meta para el entrenamiento de IA. Hasta ahora, Meta se basaba principalmente en conjuntos de datos de código abierto y de acceso público, aunque la empresa cuenta con un enorme tesoro de datos.
El RSC ya ha hecho historia: Meta entrenó en él el modelo lingüístico LLaMA, que -en parte filtrado, en parte publicado- se convirtió en la fuerza motriz del movimiento de modelos lingüísticos de código abierto. Según Meta, entrenar el modelo LLaMA más grande llevó 21 días utilizando 2.048 GPU Nvidia A100.