DeepSeek令人惊讶的是,廉价的AI模型挑战了行业巨头。这家中国初创公司声称已经培训了其强大的DeepSeek V3神经网络,仅利用2048 GPU,这与竞争对手的成本明显更高。但是,这个看似低的数字省略了研究,改进,数据处理和基础设施等大量费用。
DeepSeek的创新方法利用了几种关键技术:多型预测(MTP),以提高准确性和效率;使用256个神经网络加速培训的专家(MOE)的混合物;以及多头潜在注意力(MLA),以增强对关键句子元素的关注。
图像:ensigame.com
与他们的公开数字相反,半分析显示,DeepSeek运营着大量的计算基础设施,其中包括多个数据中心的大约50,000个NVIDIA HOPPER GPU,代表了大约16亿美元的服务器投资,运营成本约为9.44亿美元。其中包括10,000 H800、10,000 H100和其他H20 GPU。
图像:ensigame.com
中国对冲基金High-Flyer的子公司DeepSeek拥有其数据中心,与云依赖的竞争对手不同,促进了更快的创新和优化。它的自筹资金地位有助于敏捷性和迅速的决策。此外,DeepSeek吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国大学。
图像:ensigame.com
虽然DeepSeek的600万美元培训成本具有误导性,但他们的总投资超过5亿美元。它们的精益结构有助于有效的创新,与更大,更官僚的公司形成鲜明对比。大量投资,技术进步和熟练的团队是他们成功的关键,而不仅仅是“革命预算”。成本差距很明显:DeepSeek的R1型号的成本为500万美元,而Chatgpt4o的培训耗资1亿美元。
图像:ensigame.com
DeepSeek的故事突出了资金庞大的独立人工智能公司有效竞争的潜力,尽管成本异常低的叙述需要仔细审查。