Como parte de sua viagem à Europa, o CEO da OpenAI, Sam Altman, atualizou o roadmap da OpenAI.
De acordo com Altman, a falta de poder computacional está retardando os planos de curto prazo da OpenAI e levando a reclamações dos clientes sobre a confiabilidade da API da OpenAI.
A escassez de GPUs também limita a API para o ajuste fino de modelos, segundo ele. A OpenAI ainda não utiliza métodos de ajuste fino mais eficientes, como a adaptação de baixa classificação (LoRA), que tem sido muito útil para a comunidade de código aberto.
A versão de janela de contexto de 32k do GPT-4 também ainda não pode ser implantada devido à falta de poder computacional, e o acesso a modelos privados com orçamentos acima de US$100.000 é limitado. Ainda assim, Altman acredita que uma janela de contexto de até um milhão de tokens seja possível ainda este ano.
Segundo Altman, qualquer avanço além disso exigirá a solução do problema de escala “O(n^2)” para a atenção do modelo de transformador: à medida que o tamanho da janela de contexto aumenta, a quantidade de cálculos necessários aumenta exponencialmente ao quadrado do número de tokens. Dobrar o tamanho da janela de contexto quadruplica os cálculos, triplicá-la aumenta nove vezes, e assim por diante. Resolver esse problema, segundo Altman, exigirá uma descoberta científica.
Tornar o GPT-4 mais barato
Reduzir o custo de computação do GPT-4 é uma prioridade máxima para a OpenAI. Já com a transição do GPT-3 para o GPT-3.5 e o ChatGPT, a OpenAI conseguiu reduzir massivamente o custo de computação. Isso foi repassado aos clientes por meio de custos significativamente mais baixos da API.
Os modelos mais recentes devem estar disponíveis dentro do ano por meio da API de ajuste fino, assim como uma nova API que pode lembrar conversas anteriores, para que elas não precisem ser enviadas novamente a cada chamada da API. Isso reduzirá ainda mais os custos.
Por outro lado, os plugins do ChatGPT provavelmente não serão incluídos na API, de acordo com Altman. Ele acredita que é mais interessante ter o ChatGPT em aplicativos do que aplicativos no ChatGPT. Segundo Altman, os plugins, exceto para navegação, ainda não possuem um ajuste adequado ao mercado.
Nesse contexto, Altman garante que a OpenAI não planeja lançar outros produtos além do ChatGPT, pois preferem não competir com sua comunidade de desenvolvedores. A visão para o ChatGPT é otimizar as APIs da OpenAI e fornecer um assistente inteligente. Existem muitas outras aplicações para modelos de linguagem que a OpenAI não abordará.
Modo multimodal não chegará antes de 2024
Para o próximo ano, a multimodalidade está na agenda da OpenAI. A multimodalidade significa que um modelo de IA pode processar imagens, assim como texto, e no futuro, talvez áudio, vídeo ou modelos 3D.
A OpenAI já demonstrou no lançamento do GPT-4 que o modelo pode, em princípio, processar imagens, ou seja, gerar texto ou código com base em imagens. No entanto, devido à limitação de GPU mencionada anteriormente, esse recurso não está disponível no momento.
Não se sabe se a OpenAI está trabalhando em modelos multimodais adicionais. Espera-se que o GPT-5 adicione mais multimodalidade, mas não entrará em treinamento pelos próximos seis meses, de acordo com Altman. O Google Deepmind pode, portanto, ter uma vantagem inicial na multimodalidade com seu modelo Gemini.
Altman também comentou sobre sua declaração recente sobre o “fim de uma era de modelos de IA gigantes”, afirmando que a OpenAI continuará tentando treinar modelos maiores e que a lei de escala ainda se aplica, ou seja, modelos maiores prometem melhor desempenho. No entanto, os modelos não dobrarão ou triplicarão de tamanho a cada ano, pois isso não é sustentável. Com conteúdo do the decoder.