DeepSeek의 놀랍게도 저렴한 AI 모델은 업계 거인에게 도전합니다. 중국의 신생 기업은 경쟁 업체의 상당히 높은 비용과는 대조적으로 2048 GPU 만 사용하여 강력한 Deepseek V3 Neural Network를 6 백만 달러로 훈련했다고 주장했다. 그러나이 겉보기에 낮은 수치는 연구, 정제, 데이터 처리 및 인프라와 같은 상당한 비용을 생략합니다.
DeepSeek의 혁신적인 접근 방식은 몇 가지 주요 기술을 활용합니다. 정확도와 효율성을 향상시키기 위해 MTP (Multi-Token Prediction); 가속화 된 훈련을 위해 256 개의 신경망을 사용하는 전문가 (MOE)의 혼합물; 중요한 문장 요소에 중점을 둔 다중 헤드 잠재주의 (MLA).
이미지 : ensigame.com
Semianalysis는 공개 된 수치와는 달리 DeepSeek은 여러 데이터 센터에서 약 50,000 NVIDIA HOPPER GPU를 포함하여 대규모 계산 인프라를 운영하고 있으며, 이는 약 16 억 달러의 총 서버 투자와 944 백만 달러에 이르는 운영 비용을 나타냅니다. 여기에는 10,000 H800, 10,000 H100 및 추가 H20 GPU가 포함됩니다.
이미지 : ensigame.com
중국 헤지 펀드 인 High-Flyer의 자회사 인 Deepseek는 클라우드 관련 경쟁 업체와 달리 더 빠른 혁신과 최적화를 장려하는 데이터 센터를 소유하고 있습니다. 자체 자금 지원 상태는 민첩성과 신속한 의사 결정에 기여합니다. 또한 Deepseek은 최고의 인재를 유치하며 일부 연구자들은 주로 중국 대학에서 매년 130 만 달러 이상을 벌고 있습니다.
이미지 : ensigame.com
DeepSeek의 6 백만 달러의 교육 비용은 오도의 소지가 있지만 전체 투자는 5 억 달러를 초과합니다. 그들의 린 구조는 더 크고 더 많은 관료적 회사와 대조되는 효율적인 혁신을 촉진합니다. 상당한 투자, 기술 발전 및 숙련 된 팀은 "혁신적인 예산"이 아니라 성공의 핵심입니다. 비용 불균형은 분명합니다. DeepSeek의 R1 모델은 5 백만 달러, Chatgpt4o의 교육 비용은 1 억 달러입니다.
이미지 : ensigame.com
DeepSeek의 이야기는 잘 자금을 지원하고 독립적 인 AI 회사의 잠재력을 효과적으로 경쟁 할 수있는 잠재력을 강조하지만, 예외적으로 저렴한 비용에 대한 이야기에는 신중한 조사가 필요합니다.