DeepSeek viralizou

O laboratório de IA chinês DeepSeek explodiu na consciência popular nesta semana após seu aplicativo de chatbot alcançar o topo dos rankings da Apple App Store e do Google Play. Os modelos de IA do DeepSeek, treinados com técnicas de alta eficiência computacional, fizeram com que analistas de Wall Street e tecnólogos começassem a questionar se os Estados Unidos conseguirão manter sua liderança na corrida pela IA e se a demanda por chips de IA se sustentará.

Mas de onde veio o DeepSeek e como ele alcançou fama internacional tão rapidamente?

Origens do DeepSeek no mercado financeiro

O DeepSeek é financiado pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que utiliza inteligência artificial para orientar suas decisões de investimento. Liang Wenfeng, entusiasta de IA e cofundador da High-Flyer desde 2015, iniciou suas atividades no mundo do trading enquanto era estudante na Universidade de Zhejiang e, em 2019, lançou a High-Flyer Capital Management com foco no desenvolvimento e na implantação de algoritmos de IA.

Em 2023, a High-Flyer criou o DeepSeek como um laboratório voltado à pesquisa de ferramentas de IA, separado de seus negócios financeiros. Com a High-Flyer como um de seus investidores, o laboratório desmembrou-se em uma empresa independente, também chamada DeepSeek.

Desde o início, o DeepSeek construiu seus próprios clusters de data center para o treinamento dos modelos. Contudo, assim como outras empresas de IA na China, o DeepSeek foi afetado pelas proibições de exportação de hardware impostas pelos Estados Unidos. Para treinar um dos seus modelos mais recentes, a empresa precisou utilizar chips Nvidia H800, uma versão menos potente do H100, que está disponível para companhias norte-americanas.

A equipe técnica do DeepSeek é notoriamente jovem. A empresa recruta de forma agressiva pesquisadores com doutorado em IA das principais universidades da China e também contrata profissionais sem formação em ciência da computação, com o intuito de ampliar a compreensão da tecnologia sobre diversos assuntos, conforme noticiado por veículos de imprensa de renome.

Modelos robustos do DeepSeek

O DeepSeek apresentou seu primeiro conjunto de modelos – DeepSeek Coder, DeepSeek LLM e DeepSeek Chat – em novembro de 2023. Entretanto, foi somente na primavera passada, com o lançamento da família de modelos de nova geração DeepSeek-V2, que a indústria de IA começou a prestar atenção.

O DeepSeek-V2 é um sistema de análise de textos e imagens de uso geral que teve um desempenho notável em diversos benchmarks de IA – além de ser muito mais econômico do que os modelos comparáveis da época. Esse desempenho fez com que concorrentes domésticos, como ByteDance e Alibaba, reduzissem os preços de alguns de seus modelos, chegando inclusive a oferecer alguns gratuitamente.

O lançamento do DeepSeek-V3, em dezembro de 2024, só aumentou a notoriedade da empresa. Testes internos indicam que o DeepSeek V3 supera tanto modelos disponíveis para download e de acesso aberto, como o Llama, quanto modelos “fechados” acessíveis apenas por meio de API.

Outro destaque é o modelo de “raciocínio” R1, lançado em janeiro. Segundo o DeepSeek, o R1 tem desempenho equivalente a modelos de referência em benchmarks importantes. Por ser um modelo de raciocínio, o R1 realiza uma verificação dos próprios fatos, o que o ajuda a evitar armadilhas comuns em outros modelos. Embora o tempo de resposta seja um pouco maior – levando segundos ou até minutos a mais –, essa abordagem torna-o mais confiável em áreas como física, ciências e matemática.

Contudo, há uma desvantagem: por ser uma IA desenvolvida na China, os modelos do DeepSeek estão sujeitos a avaliações do regulador da internet chinês para garantir que suas respostas incorporem os valores socialistas essenciais. Por exemplo, no aplicativo de chatbot, o R1 não responde a perguntas sobre a Praça Tiananmen ou sobre a autonomia de Taiwan.

Em março, o DeepSeek ultrapassou 16,5 milhões de visitas, ficando em segundo lugar em termos de tráfego diário, apesar de uma queda de 25% em relação a fevereiro. Mesmo assim, esse número é pequeno se comparado aos mais de 500 milhões de usuários ativos semanais do ChatGPT.

Uma abordagem disruptiva

Quanto ao seu modelo de negócios, não está claro qual seria exatamente. A empresa precifica seus produtos e serviços bem abaixo dos valores de mercado – chegando a oferecer alguns gratuitamente – e, apesar do grande interesse de investidores, ainda não recorreu a aportes de capital de risco.

De acordo com a própria empresa, avanços em eficiência permitiram que o DeepSeek mantivesse uma competitividade extraordinária em termos de custos. Entretanto, alguns especialistas questionam os números divulgados.

Independente disso, os desenvolvedores têm adotado os modelos do DeepSeek. Embora esses modelos não sejam de código aberto no sentido tradicional, eles estão disponíveis sob licenças permissivas que permitem uso comercial. Conforme informações de executivos de plataformas que hospedam esses modelos, já foram criados mais de 500 modelos “derivados” do R1, acumulando milhões de downloads.

O sucesso do DeepSeek em competir com rivais maiores e mais estabelecidos foi descrito como revolucionário para o setor de IA e, ao mesmo tempo, como algo superestimado. Parte desse sucesso foi responsável, inclusive, por uma queda de 18% no valor das ações da Nvidia em janeiro, além de ter motivado declarações públicas por parte de grandes nomes do setor. Em março, agências do Departamento de Comércio dos Estados Unidos informaram que o DeepSeek seria banido em dispositivos governamentais.

A Microsoft anunciou a disponibilidade do DeepSeek em seu serviço Azure AI Foundry, uma plataforma que reúne serviços de inteligência artificial para empresas. Em discussões sobre os investimentos em IA de grandes empresas, executivos afirmaram que a infraestrutura de IA continuará sendo uma vantagem estratégica. Em meio a esse cenário, o DeepSeek também foi classificado como “subsidiado pelo Estado” e “controlado pelo Estado”, elevando os pedidos de que o governo norte-americano considere sua proibição.

Durante a teleconferência de resultados do quarto trimestre da Nvidia, o CEO Jensen Huang destacou a “excelente inovação” do DeepSeek, afirmando que os modelos de raciocínio demandam uma capacidade computacional significativamente maior – algo vantajoso para empresas como a Nvidia.

Ao mesmo tempo, diversas companhias, países e até governos estão optando por banir o DeepSeek, incluindo a Coreia do Sul, e o estado de Nova York proibiu o uso do aplicativo em dispositivos governamentais.

Quanto ao futuro do DeepSeek, o aprimoramento dos modelos é certo, mas o governo dos Estados Unidos parece estar cada vez mais atento ao que considera uma influência estrangeira problemática.

Esta história foi originalmente publicada em 28 de janeiro de 2025 e será atualizada regularmente.