Zaskakująco niedrogi model AI Deepseek wyzwala gigantów branżowych. Chiński startup twierdzi, że wyszkolił swoją potężną sieć neuronową Deepseek V3 za zaledwie 6 milionów dolarów, wykorzystując tylko 2048 GPU, co stanowi wyraźny kontrast z znacznie wyższymi kosztami konkurencji. Ta pozornie niska liczba pomija znaczne wydatki, takie jak badania, udoskonalenie, przetwarzanie danych i infrastruktura.
Innowacyjne podejście Deepseek wykorzystuje kilka kluczowych technologii: prognozowanie wielu tokenów (MTP) w celu poprawy dokładności i wydajności; Mieszanka ekspertów (MOE) zatrudniających 256 sieci neuronowych do przyspieszonego szkolenia; oraz wielorakiej ukrytej uwagi (MLA) dla zwiększonego skupienia się na kluczowych elementach zdań.
Obraz: engame.com
W przeciwieństwie do ich opublikowanych liczb, semanaliza ujawnia, że Deepseek prowadzi masową infrastrukturę obliczeniową, obejmującą około 50 000 GPU Nvidia Hopper w wielu centrach danych, co stanowi całkowitą inwestycję serwera w wysokości około 1,6 miliarda dolarów i koszty operacyjne prawie 944 mln USD. Obejmuje to 10 000 H800, 10 000 H100 i dodatkowe GPU H20.
Obraz: engame.com
Deepseek, spółka zależna od High-Flyer, chińskiego funduszu hedgingowego, jest właścicielem swoich centrów danych, w przeciwieństwie do konkurencji w chmurze, wspierając szybsze innowacje i optymalizację. Jego samofinansowany status przyczynia się do zwinności i szybkiego podejmowania decyzji. Ponadto Deepseek przyciąga najlepszych talentów, a niektórzy badacze zarabiają ponad 1,3 miliona dolarów rocznie, głównie z chińskich uniwersytetów.
Obraz: engame.com
Podczas gdy koszty szkolenia Deepseek w wysokości 6 milionów dolarów wprowadzają w błąd, ich ogólna inwestycja przekracza 500 milionów dolarów. Ich szczupła struktura ułatwia wydajne innowacje, kontrastując z większymi, bardziej biurokratycznymi firmami. Znaczna inwestycja, postęp technologiczny i wykwalifikowany zespół są kluczem do ich sukcesu, a nie wyłącznie „rewolucyjnego budżetu”. Różnica kosztów jest oczywista: model R1 Deepseek kosztował 5 milionów dolarów, a szkolenie Chatgpt4o kosztowało 100 milionów dolarów.
Obraz: engame.com
Historia Deepseek podkreśla potencjał dobrze finansowanych, niezależnych firm AI do skutecznego konkurowania, chociaż narracja o wyjątkowo niskich kosztach wymaga starannej kontroli.