Inteligência Artificial, Notícias

O GPT-4 possui 1,76 trilhão de parâmetros e se baseia em uma tecnologia com 30 anos de idade

Atualizado em 29/06/2023

Faça parte da comunidade

Entre para nossa lista e receba conteúdos exclusivos

Diz-se que o GPT-4 da OpenAI é baseado na arquitetura Mixture of Experts e possui 1,76 trilhão de parâmetros.

O GPT-4 é especulado como sendo baseado em oito modelos, cada um com 220 bilhões de parâmetros, que estão interligados na arquitetura Mixture of Experts (MoE). Essa ideia tem quase 30 anos e já foi utilizada em grandes modelos de linguagem, como o Switch Transformer do Google.

O modelo MoE é um tipo de aprendizado em conjunto que combina diferentes modelos, chamados de “experts”, para tomar uma decisão. Em um modelo MoE, uma rede de seleção determina o peso da saída de cada expert com base na entrada. Isso permite que diferentes experts se especializem em diferentes partes do espaço de entrada. Essa arquitetura é especialmente útil para conjuntos de dados grandes e complexos, pois pode dividir efetivamente o espaço do problema em subespaços mais simples.

Embora não haja um comunicado oficial da OpenAI, os rumores são considerados confiáveis

As informações sobre o GPT-4 vêm de George Hotz, fundador da Comma.ai, uma startup de direção autônoma. Hotz é um especialista em IA e também é conhecido por seu passado de hacking: ele foi o primeiro a quebrar a segurança do iPhone e do Playstation 3 da Sony.

Outros especialistas em IA também comentaram no perfil do Twitter de Hotz, afirmando que suas informações são muito provavelmente verdadeiras.

i might have heard the same 😃 — I guess info like this is passed around but no one wants to say it out loud.
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.

Though, at this point, GPT-4 is… https://t.co/mfsK7a6Bh7
— Soumith Chintala (@soumithchintala) June 20, 2023

O que o código aberto pode aprender com o GPT-4?

A arquitetura pode ter simplificado o treinamento do GPT-4 ao permitir que diferentes equipes trabalhassem em partes diferentes da rede. Isso também explicaria por que a OpenAI foi capaz de desenvolver as capacidades multimodais do GPT-4 de forma independente do produto atualmente disponível e lançá-las separadamente. No entanto, especula-se que o GPT-4 possa ter sido mesclado em um modelo menor para ser mais eficiente, conforme mencionado por Soumith Chintala, um dos fundadores do PyTorch.

Hotz também especulou que o GPT-4 produz não apenas uma saída, mas iterativamente 16 saídas que são aprimoradas a cada iteração.

A comunidade de código aberto agora poderia tentar replicar essa arquitetura; as ideias e a tecnologia estão disponíveis há algum tempo. No entanto, o GPT-4 pode ter mostrado até onde a arquitetura MoE pode chegar com os dados de treinamento adequados e os recursos computacionais necessários.

André Lug

Fundador da Iglu Online e escritor do blog André Lug. Como especialista em Inteligência Artificial e criação de conteúdo, traz conteúdos sobre IA, produtividade e empreendedorismo.

O GPT-4 possui 1,76 trilhão de parâmetros e se baseia em uma tecnologia com 30 anos de idade

Entre para nossa lista e receba conteúdos exclusivos

Embora não haja um comunicado oficial da OpenAI, os rumores são considerados confiáveis

O que o código aberto pode aprender com o GPT-4?

André Lug

Deixe um comentário Cancelar resposta

Inscreva-se em nossa newsletter

por onde andamos