Deepseek lança nova versão de seu modelo de linguagem open source para competir com o GPT-4.5

A Deepseek lançou uma versão atualizada do seu modelo DeepSeek-V3, batizada de DeepSeek-V3‑0324, que apresenta melhorias significativas no raciocínio matemático, chegando a superar modelos líderes no mercado em vários benchmarks, como MMLU-Pro, vGPQA e AIME. Além disso, o novo modelo demonstra capacidades aprimoradas para desenvolvimento web e processamento do idioma chinês, tendo alcançado 55% no benchmark Polyglot, posicionando-o em segundo lugar entre os modelos que não possuem habilidades especializadas de raciocínio.

Essa versão consolida o sucesso anterior da Deepseek com o seu modelo de raciocínio R1, que se destacou ao ser o primeiro modelo open source a competir com grandes soluções do mercado, impactando inclusive os mercados financeiros logo após seu lançamento. As evoluções apresentadas no V3 sugerem que ele pode servir como base para um modelo R2, possivelmente antecipando o próximo grande avanço nas capacidades da inteligência artificial. Ressalta-se também que o modelo é disponibilizado sob licença MIT, permitindo acesso livre para pesquisas e desenvolvimentos.

Artigo Original de 27 de dezembro de 2025

Uma startup chinesa está provando que não é necessário investir recursos exorbitantes para desenvolver uma IA de nível mundial. O mais recente modelo de linguagem da Deepseek entra em confronto com gigantes do setor, como Google e OpenAI – e foi desenvolvido por uma fração do custo usual.

Segundo uma firma independente de testes, o novo modelo V3 da Deepseek consegue competir com os sistemas de inteligência artificial mais avançados do planeta, tendo seu treinamento realizado com apenas US$ 5,6 milhões. Em um índice abrangente de qualidade, o Deepseek-V3 alcançou 80 pontos, situando-se entre os principais, ao lado de modelos proprietários como Gemini 1.5 Pro e Claude Sonnet 3.5. Apesar de os modelos mais recentes de Google e OpenAI ainda liderarem algumas categorias, o Deepseek-V3 superou todos os outros modelos open source disponíveis atualmente.

O modelo se destaca em tarefas técnicas, obtendo 92% no teste de programação HumanEval e demonstrando notáveis habilidades matemáticas com 85% na prova MATH 500. Essas capacidades evoluíram a partir do trabalho anterior com o modelo de raciocínio R1, aprimorando a capacidade do V3 para resolver problemas. Inclusive, o principal pesquisador de IA da Meta chegou a chamar o modelo de “excelente”.

artificial analysis deepseek v3 benchmarks

O Deepseek-V3 Base estabelece novos padrões em desenvolvimento de IA, especialmente no quesito custo/desempenho.

Fazendo mais com menos

Os números revelam a notável eficiência da Deepseek. Segundo o renomado especialista em inteligência artificial Andrej Karpathy, treinar um modelo tão sofisticado geralmente exige poder computacional massivo – entre 16.000 e 100.000 GPUs. No entanto, a Deepseek conseguiu essa façanha utilizando apenas 2.048 GPUs, operando durante 57 dias e somando 2,78 milhões de horas de GPU com chips Nvidia H800 para treinar seu modelo de 671 bilhões de parâmetros. Em comparação, a Meta precisou de aproximadamente 30,8 milhões de horas de GPU para treinar seu modelo Llama 3, que possui 405 bilhões de parâmetros.

deepseek v3 training costs

Pressão de preço

As operações enxutas e a estratégia de preços agressiva da Deepseek têm forçado os players tradicionais a repensar suas abordagens. Enquanto empresas como a OpenAI enfrentam perdas bilionárias, a Deepseek adotou uma estratégia diferenciada: oferecer seu melhor modelo a preços acessíveis e disponibilizá-lo como open source, inclusive compartilhando os pesos do modelo.

De acordo com análises independentes, embora o Deepseek V3 seja ligeiramente mais caro que algumas versões alternativas do mercado, ele ainda se mostra mais econômico do que outros modelos com capacidades semelhantes. Com descontos de até 90% para solicitações em cache, o modelo se destaca como a opção com melhor custo-benefício em sua categoria. Vale destacar que, apesar do recente reajuste nos preços – dobrando o custo de entrada por milhão de tokens e quadruplicando o custo de saída – a Deepseek optou por manter os preços antigos até o início de fevereiro, permitindo que mais usuários experimentem a plataforma de chat do modelo.

Restrições impulsionam o progresso

O Deepseek-V3 ilustra bem uma consequência das restrições de exportação impostas pelos Estados Unidos: o acesso limitado a hardware de ponta impulsionou a inovação na área de software. Essa abordagem, que utiliza os recursos de maneira eficiente, pode ser especialmente relevante para o desenvolvimento de IA na Europa, onde muitos dos modelos mais avançados não chegam devido a barreiras regulatórias.

Embora essa estratégia permita reduzir a dependência de grandes clusters de GPUs, os data centers continuam fundamentais. A indústria vem direcionando esforços para melhorar o tempo de inferência – período destinado à geração de respostas pelos modelos –, o que, se comprovado, ainda exigirá investimentos substanciais em poder computacional, possivelmente em escalas cada vez maiores ao longo do tempo.