Deepseek's verrassend goedkope AI -model daagt reuzen uit de industrie uit. De Chinese startup beweert zijn krachtige Deepseek V3 -neurale netwerk te hebben getraind voor slechts $ 6 miljoen, met slechts 2048 GPU's, een schril contrast met de aanzienlijk hogere kosten van concurrenten. Dit schijnbaar lage cijfer laat echter aanzienlijke kosten weg, zoals onderzoek, verfijning, gegevensverwerking en infrastructuur.
De innovatieve aanpak van Deepseek maakt gebruik van verschillende belangrijke technologieën: multi-token voorspelling (MTP) voor verbeterde nauwkeurigheid en efficiëntie; Mix van experts (MOE) met 256 neurale netwerken voor versnelde training; en multi-head latente aandacht (MLA) voor verbeterde focus op cruciale zinselementen.
afbeelding: ensigame.com
In tegenstelling tot hun gepubliceerde cijfers, onthult Semianalysis dat Deepseek een enorme computationele infrastructuur heeft, die ongeveer 50.000 NVIDIA -hopper GPU's in meerdere datacenters omvat, wat een totale serverinvestering van ongeveer $ 1,6 miljard en operationele kosten in bijna $ 944 miljoen vertegenwoordigt. Dit omvat 10.000 H800, 10.000 H100 en extra H20 GPU's.
afbeelding: ensigame.com
Deepseek, een dochteronderneming van high-flyer, een Chinees hedgefonds, bezit zijn datacenters, in tegenstelling tot cloud-reliante concurrenten, die snellere innovatie en optimalisatie bevorderen. De zelf gefinancierde status draagt bij aan behendigheid en snelle besluitvorming. Bovendien trekt Deepseek toptalent aan, waarbij sommige onderzoekers jaarlijks meer dan $ 1,3 miljoen verdienen, voornamelijk van Chinese universiteiten.
afbeelding: ensigame.com
Hoewel Deepseek's trainingskosten van $ 6 miljoen misleidend zijn, is hun totale investering meer dan $ 500 miljoen. Hun magere structuur vergemakkelijkt efficiënte innovatie, in tegenstelling tot grotere, meer bureaucratische bedrijven. De substantiële investeringen, technologische vooruitgang en bekwame team zijn de sleutel tot hun succes, niet alleen een 'revolutionair budget'. De kostenverschil is duidelijk: het R1 -model van Deepseek kost $ 5 miljoen, terwijl de training van Chatgpt4o $ 100 miljoen kostte.
afbeelding: ensigame.com
Het verhaal van Deepseek benadrukt het potentieel van goed gefinancierde, onafhankelijke AI-bedrijven om effectief te concurreren, hoewel het verhaal van uitzonderlijk lage kosten zorgvuldig onderzoek vereist.