Diz-se que o GPT-4 da OpenAI é baseado na arquitetura Mixture of Experts e possui 1,76 trilhão de parâmetros.
O GPT-4 é especulado como sendo baseado em oito modelos, cada um com 220 bilhões de parâmetros, que estão interligados na arquitetura Mixture of Experts (MoE). Essa ideia tem quase 30 anos e já foi utilizada em grandes modelos de linguagem, como o Switch Transformer do Google.
O modelo MoE é um tipo de aprendizado em conjunto que combina diferentes modelos, chamados de “experts”, para tomar uma decisão. Em um modelo MoE, uma rede de seleção determina o peso da saída de cada expert com base na entrada. Isso permite que diferentes experts se especializem em diferentes partes do espaço de entrada. Essa arquitetura é especialmente útil para conjuntos de dados grandes e complexos, pois pode dividir efetivamente o espaço do problema em subespaços mais simples.
Embora não haja um comunicado oficial da OpenAI, os rumores são considerados confiáveis
As informações sobre o GPT-4 vêm de George Hotz, fundador da Comma.ai, uma startup de direção autônoma. Hotz é um especialista em IA e também é conhecido por seu passado de hacking: ele foi o primeiro a quebrar a segurança do iPhone e do Playstation 3 da Sony.
Outros especialistas em IA também comentaram no perfil do Twitter de Hotz, afirmando que suas informações são muito provavelmente verdadeiras.
i might have heard the same 😃 — I guess info like this is passed around but no one wants to say it out loud.
— Soumith Chintala (@soumithchintala) June 20, 2023
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.
Though, at this point, GPT-4 is… https://t.co/mfsK7a6Bh7
O que o código aberto pode aprender com o GPT-4?
A arquitetura pode ter simplificado o treinamento do GPT-4 ao permitir que diferentes equipes trabalhassem em partes diferentes da rede. Isso também explicaria por que a OpenAI foi capaz de desenvolver as capacidades multimodais do GPT-4 de forma independente do produto atualmente disponível e lançá-las separadamente. No entanto, especula-se que o GPT-4 possa ter sido mesclado em um modelo menor para ser mais eficiente, conforme mencionado por Soumith Chintala, um dos fundadores do PyTorch.
Hotz também especulou que o GPT-4 produz não apenas uma saída, mas iterativamente 16 saídas que são aprimoradas a cada iteração.
A comunidade de código aberto agora poderia tentar replicar essa arquitetura; as ideias e a tecnologia estão disponíveis há algum tempo. No entanto, o GPT-4 pode ter mostrado até onde a arquitetura MoE pode chegar com os dados de treinamento adequados e os recursos computacionais necessários.