Diz-se que o GPT-4 da OpenAI é baseado na arquitetura Mixture of Experts e possui 1,76 trilhão de parâmetros.

O GPT-4 é especulado como sendo baseado em oito modelos, cada um com 220 bilhões de parâmetros, que estão interligados na arquitetura Mixture of Experts (MoE). Essa ideia tem quase 30 anos e já foi utilizada em grandes modelos de linguagem, como o Switch Transformer do Google.

O modelo MoE é um tipo de aprendizado em conjunto que combina diferentes modelos, chamados de “experts”, para tomar uma decisão. Em um modelo MoE, uma rede de seleção determina o peso da saída de cada expert com base na entrada. Isso permite que diferentes experts se especializem em diferentes partes do espaço de entrada. Essa arquitetura é especialmente útil para conjuntos de dados grandes e complexos, pois pode dividir efetivamente o espaço do problema em subespaços mais simples.

Embora não haja um comunicado oficial da OpenAI, os rumores são considerados confiáveis

As informações sobre o GPT-4 vêm de George Hotz, fundador da Comma.ai, uma startup de direção autônoma. Hotz é um especialista em IA e também é conhecido por seu passado de hacking: ele foi o primeiro a quebrar a segurança do iPhone e do Playstation 3 da Sony.

Outros especialistas em IA também comentaram no perfil do Twitter de Hotz, afirmando que suas informações são muito provavelmente verdadeiras.

O que o código aberto pode aprender com o GPT-4?

A arquitetura pode ter simplificado o treinamento do GPT-4 ao permitir que diferentes equipes trabalhassem em partes diferentes da rede. Isso também explicaria por que a OpenAI foi capaz de desenvolver as capacidades multimodais do GPT-4 de forma independente do produto atualmente disponível e lançá-las separadamente. No entanto, especula-se que o GPT-4 possa ter sido mesclado em um modelo menor para ser mais eficiente, conforme mencionado por Soumith Chintala, um dos fundadores do PyTorch.

Hotz também especulou que o GPT-4 produz não apenas uma saída, mas iterativamente 16 saídas que são aprimoradas a cada iteração.

A comunidade de código aberto agora poderia tentar replicar essa arquitetura; as ideias e a tecnologia estão disponíveis há algum tempo. No entanto, o GPT-4 pode ter mostrado até onde a arquitetura MoE pode chegar com os dados de treinamento adequados e os recursos computacionais necessários.