Удивительно недорогие модели ИИ Deepseek бросают вызов гигантам отрасли. Китайский стартап утверждает, что обучил свою мощную нейронную сеть Deepseek V3 всего за 6 миллионов долларов, используя только 2048 графических процессоров, что резко контрастирует со значительно более высокими затратами конкурентов. Эта, казалось бы, низкая цифра, однако, пропускает существенные расходы, такие как исследование, уточнение, обработка данных и инфраструктура.
Инновационный подход DeepSeek использует несколько ключевых технологий: многократный прогноз (MTP) для повышения точности и эффективности; Смесь экспертов (МО), использующих 256 нейронных сетей для ускоренного обучения; и мультиголовое скрытое внимание (MLA) для улучшения фокусировки на важные элементы предложения.
Изображение: Ensigame.com
Вопреки их опубликованным показателям, полуализ показывает, что DeepSeek управляет массовой вычислительной инфраструктурой, охватывая около 50 000 графических процессоров Nvidia Hopper в нескольких центрах дата -центров, что составляет общие инвестиции в сервер в размере около 1,6 млрд. Долл. США, а эксплуатационные расходы около 944 млн. Долл. США. Это включает в себя 10 000 H800, 10 000 H100 и дополнительных графических процессоров H20.
Изображение: Ensigame.com
Deepseek, дочерняя компания High-Flyer, китайского хедж-фонда, владеет своими центрами обработки данных, в отличие от конкурентов, способствующих облачным, способствуя более быстрым инновациям и оптимизации. Его самофинансируемый статус способствует ловкости и быстрому принятию решений. Кроме того, Deepseek привлекает лучших талантов, некоторые исследователи зарабатывают более 1,3 миллиона долларов в год, в основном из китайских университетов.
Изображение: Ensigame.com
Хотя стоимость обучения DeepSeek 6 миллионов долларов вводит в заблуждение, их общие инвестиции превышают 500 миллионов долларов. Их бережняя структура облегчает эффективные инновации, в отличие от более крупных, более бюрократических компаний. Существенные инвестиции, технологические достижения и квалифицированная команда являются ключом к их успеху, а не только «революционному бюджету». Неравенство затрат очевидно: модель Deepseek R1 стоила 5 миллионов долларов, а обучение Chatgpt4o стоила 100 миллионов долларов.
Изображение: Ensigame.com
История Deepseek подчеркивает потенциал хорошо финансируемых независимых компаний искусственного интеллекта, чтобы эффективно конкурировать, хотя повествование об исключительно низких затратах требует тщательного изучения.