O modelo de IA surpreendentemente barato de Deepseek desafia os gigantes da indústria. A startup chinesa afirma ter treinado sua poderosa rede neural Deepseek V3 por meros US $ 6 milhões, utilizando apenas 2048 GPUs, um forte contraste com os custos significativamente mais altos dos concorrentes. Essa figura aparentemente baixa, no entanto, omite despesas substanciais, como pesquisa, refinamento, processamento de dados e infraestrutura.
A abordagem inovadora da Deepseek aproveita várias tecnologias-chave: previsão de vários toques (MTP) para maior precisão e eficiência; Mistura de especialistas (MOE) empregando 256 redes neurais para treinamento acelerado; e atenção latente de várias cabeças (MLA) para um foco aprimorado nos elementos cruciais da frase.
Imagem: Ensigame.com
Ao contrário de seus números divulgados, a semiânica revela que o DeepSeek opera uma infraestrutura computacional maciça, abrangendo aproximadamente 50.000 GPUs NVIDIA Hopper em vários data centers, representando um investimento total do servidor de aproximadamente US $ 1,6 bilhão e custos operacionais próximos a US $ 944 milhões. Isso inclui 10.000 H800, 10.000 H100 e GPUs H20 adicionais.
Imagem: Ensigame.com
A Deepseek, uma subsidiária da High-Flyer, um fundo de hedge chinês, possui seus data centers, diferentemente dos concorrentes dependentes da nuvem, promovendo inovação e otimização mais rápidas. Seu status autofinanciado contribui para a agilidade e a rápida tomada de decisão. Além disso, a Deepseek atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das universidades chinesas.
Imagem: Ensigame.com
Embora o custo de treinamento de US $ 6 milhões da Deepseek seja enganoso, seu investimento geral excede US $ 500 milhões. Sua estrutura enxuta facilita a inovação eficiente, contrastando com empresas maiores e mais burocráticas. O investimento substancial, os avanços tecnológicos e a equipe qualificados são essenciais para seu sucesso, não apenas um "orçamento revolucionário". A disparidade de custo é evidente: o modelo R1 da Deepseek custou US $ 5 milhões, enquanto o treinamento da ChatGPT4O custou US $ 100 milhões.
Imagem: Ensigame.com
A história de Deepseek destaca o potencial de empresas de IA independentes e bem financiadas para competir de maneira eficaz, embora a narrativa de custos excepcionalmente baixos exija um escrutínio cuidadoso.