DeepSeek se tornou viral

O laboratório chinês de IA DeepSeek invadiu a consciência popular nesta semana, depois que seu aplicativo de chatbot alcançou o topo das paradas na Apple App Store e no Google Play. Os modelos de IA do DeepSeek, treinados com técnicas que otimizam o uso de recursos computacionais, levaram analistas de Wall Street e tecnólogos a questionarem se os Estados Unidos conseguirão manter sua liderança na corrida pela inteligência artificial e se a demanda por chips de IA se sustentará.

Origens Trader do DeepSeek

O DeepSeek conta com o apoio da High-Flyer Capital Management, um fundo hedge quantitativo chinês que utiliza a inteligência artificial para orientar suas decisões de negociação. O entusiasta de IA Liang Wenfeng co-fundou a High-Flyer em 2015. Relatos apontam que Wenfeng começou a se aventurar no mundo das negociações enquanto estudava na Universidade de Zhejiang, e, em 2019, lançou a High-Flyer Capital Management como um fundo hedge focado no desenvolvimento e implementação de algoritmos de IA.

Em 2023, a High-Flyer deu origem ao DeepSeek, um laboratório dedicado à pesquisa de ferramentas de IA, distinto do negócio financeiro. Com a High-Flyer atuando como um dos investidores, o laboratório evoluiu para uma empresa independente, também chamada DeepSeek.

Desde o início, a DeepSeek construiu seus próprios clusters de data centers para o treinamento dos modelos. No entanto, assim como outras empresas chinesas de IA, ela foi impactada pelas sanções dos Estados Unidos que restringem a exportação de hardware. Para treinar um de seus modelos mais recentes, a empresa teve que recorrer aos chips Nvidia H800, uma versão menos potente do H100, disponível apenas para companhias norte-americanas.

A equipe técnica da DeepSeek é reconhecida por sua juventude. A empresa recruta ativamente pesquisadores com doutorado em IA das melhores universidades chinesas e também contrata pessoas sem formação em ciência da computação, ampliando o repertório do sistema para compreender uma gama diversificada de assuntos.

Modelos Avançados do DeepSeek

Em novembro de 2023, a DeepSeek apresentou seu primeiro conjunto de modelos – DeepSeek Coder, DeepSeek LLM e DeepSeek Chat. Contudo, foi somente na primavera passada, com o lançamento da família de modelos DeepSeek-V2 de nova geração, que a indústria de IA começou a prestar uma atenção especial à empresa.

O DeepSeek-V2 é um sistema generalista para análise de textos e imagens, que obteve excelentes resultados em diversos testes de desempenho e se mostrou muito mais econômico em comparação aos modelos similares disponíveis na época. Esse avanço obrigou a concorrência doméstica, incluindo players como ByteDance e Alibaba, a reduzir os preços de alguns modelos e oferecer outros gratuitamente.

O lançamento do DeepSeek-V3, em dezembro de 2024, consolidou ainda mais a notoriedade da empresa. Segundo testes internos, o DeepSeek-V3 supera tanto modelos abertos – disponíveis para download – quanto modelos “fechados”, acessíveis apenas via API.

Outro destaque é o modelo R1, focado em raciocínio, lançado em janeiro. A DeepSeek afirma que o R1 apresenta desempenho equivalente a modelos consagrados em benchmarks-chave. Por ser um modelo de raciocínio, o R1 efetua checagens internas, evitando alguns dos erros comuns a modelos tradicionais. Embora esse processo aumente o tempo de resposta – levando segundos ou até minutos a mais –, os resultados se mostram mais confiáveis em disciplinas como física, ciência e matemática.

Contudo, os modelos R1, DeepSeek-V3 e outros da empresa, por serem desenvolvidos na China, estão sujeitos a avaliações do regulador de internet do país, que exige que as respostas reflitam os valores socialistas centrais. Assim, por exemplo, no aplicativo de chatbot da DeepSeek, o modelo R1 não responderá questões sobre a Praça Tiananmen ou sobre a autonomia de Taiwan.

Em março, o DeepSeek alcançou mais de 16,5 milhões de visitas. Apesar de uma queda de 25% no tráfego diário em comparação a fevereiro, sua relevância se manteve, ainda que distante dos 500 milhões de usuários ativos semanais observados em outros aplicativos de chatbot.

Uma Abordagem Disruptiva

Quanto ao modelo de negócios do DeepSeek, os detalhes exatos ainda são nebulosos. A empresa precifica seus produtos e serviços bem abaixo do valor de mercado e, em alguns casos, os disponibiliza gratuitamente, sem recorrer a investimentos de capital de risco, mesmo diante do grande interesse de investidores.

Segundo a própria DeepSeek, avanços significativos na eficiência permitiram que a empresa mantivesse uma competitividade extrema em termos de custos, embora alguns especialistas contestem os números divulgados. De qualquer forma, os desenvolvedores têm adotado os modelos do DeepSeek, que, apesar de não serem open source no sentido tradicional, são disponibilizados sob licenças permissivas que permitem o uso comercial. Por exemplo, já foram criados mais de 500 modelos derivados do R1, que juntos acumularam 2,5 milhões de downloads.

O sucesso do DeepSeek, frente a concorrentes maiores e mais estabelecidos, tem sido descrito como uma revolução no campo da IA, ao mesmo tempo em que provoca debates quanto ao seu impacto no mercado. Em parte, o êxito da empresa contribuiu para uma queda significativa no valor das ações de grandes fabricantes de chips e suscitou reações de líderes do setor. Em março, agências do Departamento de Comércio dos Estados Unidos informaram que o DeepSeek seria proibido em dispositivos governamentais americanas.

A Microsoft anunciou a disponibilidade dos modelos do DeepSeek em seu serviço Azure AI Foundry, que integra as ofertas de IA para empresas em uma única plataforma. Em declarações, executivos destacaram que o investimento em infraestrutura de IA continuará sendo uma vantagem estratégica. Em contrapartida, a OpenAI classificou o DeepSeek como uma ferramenta “subsidiada e controlada pelo Estado”, recomendando que o governo dos EUA avalie a possibilidade de banir modelos provenientes da empresa chinesa.

Durante uma chamada de resultados da Nvidia, o CEO Jensen Huang ressaltou a “excelente inovação” apresentada pelo DeepSeek, enfatizando que modelos de raciocínio, como o R1, são fundamentais para a crescente demanda por poder computacional. Ao mesmo tempo, diversas empresas, países – como a Coreia do Sul – e governos estão restringindo o uso do DeepSeek, inclusive o estado de Nova York, que proibiu a ferramenta em dispositivos governamentais.

Quanto ao futuro, novos e aprimorados modelos são esperados. Entretanto, o governo dos Estados Unidos demonstra crescente apreensão em relação ao que considera uma influência estrangeira potencialmente prejudicial, o que pode levar à proibição do DeepSeek em dispositivos governamentais.

Esta história foi originalmente publicada em 28 de janeiro de 2025 e será atualizada regularmente.