Mô hình AI rẻ tiền đáng ngạc nhiên của Deepseek thách thức những người khổng lồ trong ngành. Khởi nghiệp Trung Quốc tuyên bố đã đào tạo mạng lưới thần kinh Deepseek V3 mạnh mẽ của mình chỉ với 6 triệu đô la, chỉ sử dụng GPU 2048, một sự tương phản rõ rệt với chi phí cao hơn đáng kể của các đối thủ. Tuy nhiên, con số dường như thấp này bỏ qua các chi phí đáng kể như nghiên cứu, tinh chỉnh, xử lý dữ liệu và cơ sở hạ tầng.
Cách tiếp cận sáng tạo của Deepseek tận dụng một số công nghệ chính: Dự đoán đa điểm (MTP) để cải thiện độ chính xác và hiệu quả; Hỗn hợp các chuyên gia (MOE) sử dụng 256 mạng lưới thần kinh để đào tạo tăng tốc; và sự chú ý tiềm ẩn đa đầu (MLA) để tập trung nâng cao vào các yếu tố câu quan trọng.
Hình ảnh: Obligame.com
Trái ngược với các số liệu được công khai của họ, Semianalysis cho thấy Deepseek vận hành một cơ sở hạ tầng tính toán lớn, bao gồm khoảng 50.000 GPU phễu NVIDIA trên nhiều trung tâm dữ liệu, đại diện cho tổng đầu tư của máy chủ khoảng 1,6 tỷ đô la và chi phí hoạt động gần 944 triệu đô la. Điều này bao gồm 10.000 H800, 10.000 H100 và GPU H20 bổ sung.
Hình ảnh: Obligame.com
Deepseek, một công ty con của High Flyer, một quỹ phòng hộ của Trung Quốc, sở hữu các trung tâm dữ liệu của mình, không giống như các đối thủ cạnh tranh dựa trên đám mây, thúc đẩy sự đổi mới và tối ưu hóa nhanh hơn. Tình trạng tự tài trợ của nó góp phần vào sự nhanh nhẹn và ra quyết định nhanh chóng. Hơn nữa, Deepseek thu hút tài năng hàng đầu, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm, chủ yếu từ các trường đại học Trung Quốc.
Hình ảnh: Obligame.com
Trong khi chi phí đào tạo trị giá 6 triệu đô la của Deepseek là sai lệch, khoản đầu tư chung của họ vượt quá 500 triệu đô la. Cấu trúc nạc của họ tạo điều kiện cho sự đổi mới hiệu quả, tương phản với các công ty lớn hơn, quan liêu hơn. Đầu tư đáng kể, những tiến bộ công nghệ và đội ngũ lành nghề là chìa khóa thành công của họ, không chỉ là "ngân sách cách mạng". Sự chênh lệch về chi phí là hiển nhiên: Mô hình R1 của Deepseek có giá 5 triệu đô la, trong khi khóa đào tạo của TATGPT4O có giá 100 triệu đô la.
Hình ảnh: Obligame.com
Câu chuyện của Deepseek nhấn mạnh tiềm năng của các công ty AI độc lập, được tài trợ tốt để cạnh tranh hiệu quả, mặc dù câu chuyện về chi phí đặc biệt thấp đòi hỏi phải xem xét kỹ lưỡng.