China’s DeepSeek zegt ‘dat het trainen van zijn populaire AI-model slechts $ 294.000 kostte’

China’s DeepSeek zegt 'dat het trainen van zijn populaire AI-model slechts $ 294.000 kostte'

China’s DeepSeek zegt ‘dat het trainen van zijn populaire AI-model slechts $ 294.000 kostte’

De Chinese AI-ontwikkelaar DeepSeek zei dat het $ 294.000 heeft uitgegeven aan het trainen van zijn R1-model, aanzienlijk lager dan de bedragen die voor Amerikaanse concurrenten zijn gerapporteerd, volgens een artikel dat waarschijnlijk de discussie over China’s positie in de AI-race nieuw leven inblaast.

De zeldzame update van het in Hangzhou gevestigde bedrijf de eerste schatting die het heeft vrijgegeven van de trainingskosten van R1 — verscheen in een peer-review artikel in het wetenschappelijke tijdschrift Nature.

De vrijgave van informatie over wat DeepSeek beweert “lage kosten” te zijn in januari leidde ertoe dat wereldwijde investeerders technologische aandelen verkochten, uit vrees dat de nieuwe modellen de dominante AI-spelers zoals Nvidia zouden kunnen uitdagen.

Het Nature-artikel, waarin Liang (de oprichter) als mede-auteur is vermeld, stelde dat DeepSeek’s op ‘redenatie’ gerichte model R1 getraind werd voor $ 294.000 met gebruik van 512 Nvidia H800-chips. In eerdere versies van het artikel stonden deze details niet vermeld.

Sam Altman, CEO van OpenAI, zei in 2023 dat wat hij noemde “fundamentele modeltraining” veel meer had gekost dan $ 100 miljoen — hoewel zijn bedrijf geen gedetailleerde cijfers heeft vrijgegeven voor zijn releases.

De trainingskosten voor de grootschalige taalmodellen die AI-chatbots aandrijven, verwijzen naar de uitgaven voor het laten draaien van een cluster krachtige chips voor weken of maanden om enorme hoeveelheden tekst en code te verwerken.

Sommige beweringen van DeepSeek over zijn ontwikkelingskosten en gebruikte technologie zijn echter in twijfel getrokken door Amerikaanse bedrijven en functionarissen.

De H800-chips die het bedrijf noemde, zijn ontworpen door Nvidia voor de Chinese markt nadat de VS in oktober 2022 de export van de krachtigere H100- en A100-AI-chips naar China onmogelijk had gemaakt.

Amerikaanse functionarissen vertelden Reuters in juni dat DeepSeek toegang had tot “grote hoeveelheden” H100-chips die waren verkregen nadat de exportbeperkingen waren ingevoerd. Nvidia stelde dat DeepSeek legaal verkregen H800-chips gebruikt, niet H100’s.

In aanvullende documenten bij het Nature-artikel erkende het bedrijf voor het eerst dat het A100-chips bezit en meldde dat deze in voorbereidende fasen van de ontwikkeling gebruikt waren. “Wat betreft ons onderzoek naar DeepSeek-R1, gebruikten we de A100 GPUs om voor te bereiden voor experimenten met een kleiner model,” schreven de onderzoekers. Daarna werd R1 getraind gedurende in totaal 80 uur op het cluster van 512 H800-chips.

Eerder was gemeld dat één van de redenen dat DeepSeek topwetenschappers in China kon aantrekken, was dat het één van de weinige binnenlandse bedrijven was met een A100 supercomputing-cluster.

redactie

Redactie Nieuws.Marketing; wij bestaan uit digital en online marketeers, communciatieprofs, onderzoekers en tech plus AI-marketing experts.