
Em janeiro de 2025, um modelo chinês fazia as ações de diversas big techs derreterem e colocava o Vale do Silício em estado de alerta: o DeepSeek. Até então pouco conhecida pelo mundo, a inteligência artificial chinesa desencadeou um verdadeiro terremoto nos mercados globais ao levantar dúvidas sobre o domínio tecnológico e financeiro das gigantes americanas de IA.
O impacto foi imediato: a Nvidia perdeu quase US$ 600 bilhões em valor de mercado em um único dia, enquanto empresas como Microsoft, Alphabet e fabricantes de chips também registraram quedas expressivas. Em apenas três pregões, as chamadas Magnificent Seven viram US$ 643 bilhões evaporarem — um montante equivalente a quase todo o valor total de mercado de todas as empresas listadas na B3.
Na época, o motivo do pânico nos EUA vinha da ideia de que o DeepSeek parecia combinar desempenho competitivo, código aberto e custos drasticamente menores — o clássico “bom e barato”. O modelo não só rivalizava com soluções como o ChatGPT, como chegou a superar o chatbot da OpenAI em popularidade na Apple Store e alimentar rumores de supostas salas de crise em empresas como a Meta. Mas um ano depois, o que aconteceu com a chinesa?
O sucesso da DeepSeek, no entanto, foi tão rápido quanto a sua queda. Poucos dias após provocar um estrago bilionário nas big techs americanas, a startup chinesa tentou se manter nos holofotes ao anunciar o Janus-Pro, seu modelo gerador de imagens. Além disso, um mês depois, chegou a firmar integrações com fabricantes de smartphones na China para levar seus serviços diretamente aos celulares. As iniciativas, porém, não tiveram o mesmo efeito disruptivo do lançamento inicial. Sem novos avanços capazes de abalar o mercado global e ofuscada pela reação acelerada das concorrentes, a DeepSeek passou, aos poucos, a ser “esquecida” pelo mercado.
Em mais uma tentativa de retornar aos holofotes, em setembro do mesmo ano a DeepSeek anunciou um novo modelo de inteligência artificial, numa movimentação que soou quase desesperada diante da perda de relevância no mercado global. Batizado de DeepSeek-V3.2-Exp, o modelo experimental prometia avanços no processamento de longas sequências de texto e a adoção da chamada Sparse Attention, arquitetura que, segundo a empresa, reduziria custos computacionais e aumentaria a eficiência.
A chinesa também apostou em uma estratégia agressiva de preços, cortando em mais de 50% o valor de sua API para desenvolvedores. Ainda assim, apesar de reacender pontualmente o interesse do setor, o anúncio ficou longe de repetir o impacto das versões que haviam abalado o Vale do Silício meses antes, reforçando a dificuldade da DeepSeek em transformar um retorno técnico promissor em um novo fenômeno de mercado.
Novo método de treinamento de LLMs
Agora, um ano após o auge e a subsequente perda de protagonismo, a DeepSeek volta a chamar atenção por um caminho diferente. Na última semana, a startup chinesa publicou um documento técnico no qual apresenta um novo método para o treinamento de LLMs — Large Language Models, os sistemas de IA usados em chatbots como o ChatGPT e Gemini.
Batizado de “Manifold-Constrained Hyper-Connections” (mHC, numa versão mais curta), esse método promete melhorar a escalabilidade dos modelos ao mesmo tempo em que reduz o consumo de energia e a demanda computacional no treinamento.
Assinado por 19 autores, incluindo o fundador Liang Wenfeng, o trabalho foi divulgado em plataformas abertas como o arXiv e o Hugging Face e reacende as expectativas do mercado para o próximo grande lançamento da empresa, previsto para o início de 2026.
Enquanto as Hyper-Connections comuns melhoram o desempenho ao misturar mais caminhos de informação, elas podem fazer o sinal “explodir” ou se perder ao longo das camadas, dificultando o treinamento. O mHC resolve isso impondo uma nova regra: as conexões residuais passam a combinar informações de maneira controlada, como uma média ponderada bem comportada, preservando a identidade do sinal entre as camadas. Com isso, o modelo consegue crescer em largura e profundidade sem instabilidade, mantém ganhos de desempenho e praticamente não adiciona custo computacional. Além disso, o método é flexível e abre espaço para novas formas de organizar as conexões do modelo, incentivando avanços no desenho de arquiteturas mais eficientes e robustas no futuro.
Será que os chineses vão conseguir sacudir o mundo de novo com esse avanço? Prepare a sua pipoca e aguarde as cenas do próximos capítulos.