DeepSeek令人驚訝的是,廉價的AI模型挑戰了行業巨頭。這家中國初創公司聲稱已經培訓了其強大的DeepSeek V3神經網絡,僅利用2048 GPU,這與競爭對手的成本明顯更高。但是,這個看似低的數字省略了研究,改進,數據處理和基礎設施等大量費用。
DeepSeek的創新方法利用了幾種關鍵技術:多型預測(MTP),以提高準確性和效率;使用256個神經網絡加速培訓的專家(MOE)的混合物;以及多頭潛在注意力(MLA),以增強對關鍵句子元素的關注。
圖像:ensigame.com
與他們的公開數字相反,半分析顯示,DeepSeek運營著大量的計算基礎設施,其中包括多個數據中心的大約50,000個NVIDIA HOPPER GPU,代表了大約16億美元的服務器投資,運營成本約為9.44億美元。其中包括10,000 H800、10,000 H100和其他H20 GPU。
圖像:ensigame.com
中國對衝基金High-Flyer的子公司DeepSeek擁有其數據中心,與雲依賴的競爭對手不同,促進了更快的創新和優化。它的自籌資金地位有助於敏捷性和迅速的決策。此外,DeepSeek吸引了頂尖人才,一些研究人員每年收入超過130萬美元,主要來自中國大學。
圖像:ensigame.com
雖然DeepSeek的600萬美元培訓成本具有誤導性,但他們的總投資超過5億美元。它們的精益結構有助於有效的創新,與更大,更官僚的公司形成鮮明對比。大量投資,技術進步和熟練的團隊是他們成功的關鍵,而不僅僅是“革命預算”。成本差距很明顯:DeepSeek的R1型號的成本為500萬美元,而Chatgpt4o的培訓耗資1億美元。
圖像:ensigame.com
DeepSeek的故事突出了資金龐大,獨立的AI公司有效競爭的潛力,盡管成本異常低的敘述需要仔細審查。