DeepSeek se tornou viral

O laboratório de IA chinês DeepSeek irrumpiu na consciência popular esta semana depois que seu aplicativo de chatbot alcançou o topo das paradas da Apple App Store – e também do Google Play. Os modelos de IA do DeepSeek, treinados com técnicas de computação eficiente, levaram analistas de Wall Street e tecnólogos a questionar se os Estados Unidos conseguirão manter a liderança na corrida da inteligência artificial e se a demanda por chips de IA se sustentará.

Mas de onde veio o DeepSeek e como ele ganhou fama internacional tão rapidamente?

Origens de trader do DeepSeek

O DeepSeek conta com o apoio da High-Flyer Capital Management, um fundo de hedge quantitativo chinês que utiliza inteligência artificial para orientar suas decisões de investimento.

O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Supostamente, Wenfeng começou a se aventurar no mercado financeiro enquanto estudava na Universidade de Zhejiang e, em 2019, lançou a High-Flyer Capital Management focada no desenvolvimento e implantação de algoritmos de IA.

Em 2023, a High-Flyer criou o DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA, separado de suas atividades financeiras, que depois se desmembraria em sua própria empresa sob o mesmo nome.

Desde o início, o DeepSeek construiu seus próprios clusters de data centers para o treinamento dos modelos. Entretanto, como outras empresas de IA na China, foi afetado pelas restrições de exportação de hardware impostas pelos Estados Unidos, tendo que usar chips Nvidia H800 – uma versão menos potente do chip H100 disponível para companhias americanas – para treinar um dos seus modelos mais recentes.

A equipe técnica do DeepSeek tem um perfil bastante jovem. A empresa recruta, de forma agressiva, pesquisadores doutorais de IA das melhores universidades chinesas e, inclusive, contrata pessoas sem formação em ciência da computação para ampliar a abrangência de conhecimento de suas tecnologias, conforme reportado por importantes veículos de mídia.

Modelos robustos do DeepSeek

O DeepSeek revelou seu primeiro conjunto de modelos – DeepSeek Coder, DeepSeek LLM e DeepSeek Chat – em novembro de 2023. Contudo, foi somente na primavera passada, com o lançamento da família de modelos de nova geração DeepSeek-V2, que a indústria de IA começou a prestar atenção.

O DeepSeek-V2 é um sistema geral de análise de texto e imagem que obteve ótimo desempenho em diversos testes de referência, operando a um custo significativamente menor do que modelos comparáveis na época. Essa vantagem competitiva forçou concorrentes domésticos, como ByteDance e Alibaba, a reduzir os preços de alguns de seus modelos e a oferecer outros gratuitamente.

O lançamento do DeepSeek-V3, em dezembro de 2024, só aumentou a notoriedade da empresa. Testes internos indicam que o DeepSeek V3 supera modelos disponíveis para download, como o Llama da Meta, e modelos “fechados” acessados via API, como o GPT-4o da OpenAI.

Outro destaque é o modelo de “raciocínio” R1, lançado em janeiro, que segundo o DeepSeek apresenta desempenho equiparável a modelos avançados da OpenAI em testes cruciais. Por ser um modelo de raciocínio, o R1 realiza a verificação interna dos fatos, ajudando a evitar erros comuns em outros sistemas. Embora demore um pouco mais – alguns segundos ou até minutos a mais – para chegar a uma resposta, sua abordagem tende a oferecer maior confiabilidade em áreas como física, ciência e matemática.

Por outro lado, como se trata de uma tecnologia desenvolvida na China, os modelos do DeepSeek estão sujeitos à avaliação do regulador de internet chinês, que exige que as respostas incorporem os “valores socialistas fundamentais”. Assim, por exemplo, no aplicativo de chatbot do DeepSeek, o R1 não responde a questões relacionadas à Praça Tiananmen ou à autonomia de Taiwan.

Uma abordagem disruptiva

Embora o DeepSeek possua um modelo de negócio, ainda não está claro exatamente qual é sua forma de monetização. Seus produtos e serviços são precificados bem abaixo do valor de mercado e, em alguns casos, distribuídos gratuitamente.

Segundo a própria empresa, os avanços em eficiência permitiram manter um custo extremamente competitivo, embora alguns especialistas questionem os números divulgados.

De qualquer forma, os desenvolvedores têm adotado os modelos do DeepSeek, que, embora não sejam “código aberto” no sentido tradicional, estão disponíveis sob licenças permissivas que viabilizam o uso comercial. Já foram criados mais de 500 modelos derivados do R1, que juntos totalizaram milhões de downloads.

O sucesso do DeepSeek em competir com rivais maiores e mais consolidados foi descrito como uma verdadeira revolução na área de IA – e, ao mesmo tempo, considerado por alguns como uma tecnologia “superestimada”. Esse êxito teve impacto até no mercado financeiro, contribuindo para uma queda significativa no valor das ações da Nvidia, e gerou reações notórias no setor, inclusive entre os altos executivos da OpenAI.

A Microsoft anunciou a integração do DeepSeek em seu serviço Azure AI Foundry, que reúne soluções de IA para empresas. Em meio a esse cenário, executivos de grandes empresas afirmam que os investimentos em infraestrutura de IA continuarão sendo uma vantagem estratégica, enquanto outras companhias, países e até mesmo governos – como o da Coreia do Sul e o estado de Nova York – já adotaram medidas para restringir o uso do DeepSeek.

Quanto ao futuro do DeepSeek, a evolução dos seus modelos parece inevitável, mas o cenário é incerto, especialmente diante da crescente preocupação do governo dos Estados Unidos com a influência estrangeira considerada prejudicial.