El modelo de IA sorprendentemente económico de Deepseek desafía a los gigantes de la industria. La startup china afirma haber capacitado a su poderosa red neuronal Deepseek V3 por solo $ 6 millones, utilizando solo 2048 GPU, un marcado contraste con los costos significativamente más altos de los competidores. Sin embargo, esta cifra aparentemente baja omite gastos sustanciales como investigación, refinamiento, procesamiento de datos e infraestructura.
El enfoque innovador de Deepseek aprovecha varias tecnologías clave: predicción múltiple (MTP) para mejorar la precisión y eficiencia; Mezcla de expertos (MOE) que emplean 256 redes neuronales para capacitación acelerada; y atención latente múltiple (MLA) para un enfoque mejorado en elementos de oraciones cruciales.
Imagen: Ensigame.com
Al contrario de sus cifras publicitadas, Semianalysis revela que Deepseek opera una infraestructura computacional masiva, que abarca aproximadamente 50,000 GPU de la tolva nvidia en múltiples centros de datos, que representa una inversión total del servidor de aproximadamente $ 1.6 mil millones y costos operativos cerca de $ 944 millones. Esto incluye 10,000 H800, 10,000 H100 y GPU H20 adicionales.
Imagen: Ensigame.com
Deepseek, una subsidiaria de High-Flyer, un fondo de cobertura chino, posee sus centros de datos, a diferencia de los competidores libres de nubes, fomentando la innovación y la optimización más rápidas. Su estado autofinanciado contribuye a la agilidad y la rápida toma de decisiones. Además, Deepseek atrae al máximo talento, y algunos investigadores ganan más de $ 1.3 millones anuales, principalmente de las universidades chinas.
Imagen: Ensigame.com
Si bien el costo de capacitación de $ 6 millones de Deepseek es engañoso, su inversión general supera los $ 500 millones. Su estructura magra facilita la innovación eficiente, en contraste con empresas más grandes y más burocráticas. La inversión sustancial, los avances tecnológicos y el equipo calificado son clave para su éxito, no solo un "presupuesto revolucionario". La disparidad de costos es evidente: el modelo R1 de Deepseek cuesta $ 5 millones, mientras que la capacitación de ChatGPT4O costó $ 100 millones.
Imagen: Ensigame.com
La historia de Deepseek destaca el potencial de las compañías de IA independientes bien financiadas para competir de manera efectiva, aunque la narración de costos excepcionalmente bajos requiere un escrutinio cuidadoso.