Em maio, a MosaicML lançou o que então era um dos melhores modelos de linguagem de código aberto, e agora a startup está seguindo com uma versão maior e mais poderosa.
Após o MPT-7B, a MosaicML lançou o MPT-30B, seu segundo grande modelo de linguagem de código aberto. O novo modelo possui 30 bilhões de parâmetros e a MosaicML afirma que ele supera o desempenho do GPT-3 da OpenAI, apesar de ter aproximadamente um sexto do número de parâmetros.
Em algumas áreas, como programação, diz-se que ele supera modelos de código aberto como o LLaMA da Meta ou o Falcon, e em outras áreas, está no mesmo nível ou ligeiramente inferior. Como sempre, essa informação é difícil de verificar no momento. Assim como seu antecessor, o MPT-30B pode ser usado para fins comerciais e vem em duas variantes: MPT-30-Instruct, um modelo treinado para seguir instruções curtas, e o modelo de chatbot MPT-30B-Chat.
MPT-30B possui uma janela de contexto mais longa
O MPT-30B também foi treinado em sequências mais longas (até 8.000 tokens) do que o GPT-3, LLaMA ou Falcon (2.000 tokens cada). O comprimento do contexto, que é a metade da variante mais recente do “GPT-3.5-turbo”, torna-o adequado para casos de uso onde muito texto ou código precisa ser processado simultaneamente. No entanto, com otimizações adicionais, o comprimento da sequência poderia ser facilmente dobrado durante o ajuste fino ou inferência, de acordo com a MosaicML.
Como exemplo, a empresa cita aplicações em setores como saúde ou bancário, que não desejam fornecer seus dados para a OpenAI. A janela de contexto estendida poderia ser usada para interpretar resultados de exames laboratoriais e fornecer insights sobre o histórico médico de um paciente por meio da análise de diferentes entradas.
A MosaicML mira a plataforma proprietária da OpenAI
Diz-se também que o MPT-30B é mais eficiente em termos computacionais do que o Falcon ou o LLaMA, executando em uma única placa de vídeo com 80 gigabytes de memória. Naveen Rao, co-fundador e CEO da MosaicML, explicou que o modelo Falcon, com seus 40 bilhões de parâmetros, não conseguia ser executado em uma única GPU.
No entanto, Rao enxerga as plataformas proprietárias, como a OpenAI, como a verdadeira concorrência; os projetos de código aberto estão, em última instância, todos do mesmo time, segundo ele. Ele enfatizou que os modelos de linguagem de código aberto estão “diminuindo a distância em relação a esses modelos de código fechado”. O GPT-4 da OpenAI ainda é claramente superior, ele disse, mas chegou o momento em que eles “ultrapassaram o limite em que esses modelos são realmente extremamente úteis”.