Chinees LLM DeepSeek-R1 zorgt voor AI-paniek

Redeneren met GenAI kan spotgoedkoop

Chinees LLM DeepSeek-R1 zorgt voor AI-paniek

Net als ChatGPT eind 2022 is DeepSeek in razendsnel tempo naar de top van appwinkels geklommen. Ook op HuggingFace is dit open-source AI-model van Chinese komaf immens populair. Hoe komt dat? En waarom moet OpenAI zich zorgen maken? We bespreken het in de nieuwste aflevering van Techzine Talks.

Toen OpenAI in september de langverwachte opvolger van GPT-4 presenteerde, bleek de doorbraak om ‘redeneren’ te gaan. “o1 denkt voordat het antwoordt”, luidde de introductie van OpenAI rondom het nieuwe AI-model destijds. Gebruikers moeten dan ook even wachten voordat deze krachtige LLM hen van een antwoord voorziet. Net als gold voor GPT-3, GPT-4 en GPT-4o was de vereiste AI-training voor o1 immens en daarom enorm prijzig. In combinatie met de expertise en ervaring met ChatGPT leek OpenAI ondanks flinke kosten een grote voorsprong te behouden op Google, Anthropic en welke andere AI-uitdager dan ook. Daarbovenop: niemand wist hoe OpenAI een redeneerstap had toegevoegd aan hun GenAI-model.

Luister (en kijk) elke week door je te abonneren via: SpotifyApple PodcastsYouTube of een andere dienst.

Goedkoop redeneren

Afgelopen week liet het Chinese DeepSeek zien dat die OpenAI-voorsprong helemaal niet zo groot is. Met slechts 3 tot 5 procent van de ingeschatte kosten die o1 vereiste, laat DeepSeek-R1 relatief vergelijkbare benchmark-resultaten zien. Net als bij o1 kunnen gebruikers precies zien wat de LLM ‘denkt’ terwijl het een antwoord genereert, en de resultaten zijn (los van de benchmarks) best vergelijkbaar. De outputs zijn duidelijk hoogwaardiger dan die van wat men een ‘dense’ LLM noemt, ofwel een generatief AI-model dat in zijn geheel activeert om een antwoord te geven. DeepSeek-R1 is daarentegen een Mixture-of-Experts (MoE)-model. Dat is een collectie aan LLM’s die als experts optreden voor bepaalde onderwerpen. Zo bestaat DeepSeek-R1 uit 671 miljard parameters, maar is elke ‘expert’ 37 miljard parameters groot.

De training achter DeepSeek-R1 heeft meerdere stappen doorlopen. Nadat DeepSeek-R1-Zero gaandeweg op eigen kracht bleek te kunnen redeneren op basis van trainingdata, voegde het Chinese bedrijf eerst een laag aan Reinforcement Learning (RL) toe. Pas daarna werd de LLM losgelaten op de data, waaruit het (op basis van het RL-gedreven proces) onttrok hoe het stapsgewijs tot een output kan komen.

Het trainen van R1 kostte omgerekend 5,33 miljoen euro en vereiste ‘slechts’ 50.000 Nvidia-GPU’s. Dat zijn er nogal wat, maar is naar schatting minder dan een tiende van het aantal GPU’s dat OpenAI nodig had voor o1. Deze efficiëntie laat zich verklaren door een relatief eenvoudige vorm van training. In tegenstelling tot OpenAI’s fine-tuning maakt DeepSeek gebruik van reinforcement learning (RL). De makers van R1 hebben het model daarmee zelf laten ‘ontdekken’ hoe redeneren werkt.

In tegenstelling tot o1 zijn alle details van DeepSeek’s nieuwste model uit te pluizen. Immers is R1 volledig open-source. Op HuggingFace is het model al 131.000 keer gedownload en staat het fier bovenaan in de trending-lijst. Een nieuwe GenAI-superster is geboren, en iedereen kan eraan sleutelen.

AI-paniek

Nu de resultaten van DeepSeek binnen zijn, zorgen ze voor een zekere mate van AI-paniek op de beurs. Hoewel ASML’s koersval mogelijk ook te maken heeft met een vertraging van de infrastructuurbouw in Nederland, legt Bloomberg nadrukkelijk de verbinding met de opmars van de Chinese AI-modelbouwer. Ook Amerikaanse AI-bedrijven moesten het ontgelden op de Nasdaq, terwijl aandelen in China juist groene cijfers toonden.

Nu blijkt namelijk dat er veel minder infrastructuur nodig is om state-of-the-art AI-technologie te bouwen dan eerder gedacht. Dit corrigeert bijvoorbeeld de waarde van AI-chipmaker Nvidia significant: op moment van schrijven is de koers al 11 procent gezakt voordat de deuren van de Nasdaq geopend zijn. Er zit veel rek in dergelijke aandelen door de AI-hype, waar nu stevig op ingehakt wordt.

Er valt wat voor te zeggen dat het werk van DeepSeek democratiserend werkt. Allereerst omdat de MIT open-source licentie van R1 commercieel hergebruik, aanpassingen en onderzoek toestaat. AI-developers kunnen dus net als bij Meta’s Llama-modellen de vruchten plukken van de behaalde innovatie. Voor eindgebruikers van DeepSeek is de doorbraak eveneens positief, aangezien de API-kosten voor R1 grofweg een dertigste zijn van OpenAI’s o1 en soortgelijke modellen.

Aan de andere kant zit er ook een schaduwkant aan DeepSeek. Het is een Chinees model dat zich houdt aan Chinese wetten. Dat betekent dat zeker niet op alle vragen een antwoord komt.

Niet nieuw

DeepSeek zal voor velen een nieuwe AI-naam zijn. We hebben er echter al meerdere keren over geschreven. Zo bleek het in juni met DeepSeek Coder V2 verbluffende codeerprestaties te behalen. Destijds was het een uitdager van GPT-4 Turbo op dat gebied. In december volgde DeepSeek-V3, dat al leunde op een Mixture-of-Experts (MoE)-architectuur. Het aantal parameters, veelal een manier om de te verwachten prestaties van een LLM in te schatten, was 671 miljard. Echter was dit een optelsom van verschillende ‘experts’ in de vorm van modellen, elk 34 miljard parameters groot.

Lees ook: DeepSeek-V3 overkomt uitdagingen van Mixture of Experts-techniek

Ook de nieuwe golf aan reasoning-modellen borduurt voort op de standaard die gezet is met LLM’s. Anthropic-CEO Dario Amodei ziet de mate van ‘redenering’ in AI-modellen als een spectrum. Wie Claude 3.5 Sonnet van Anthropic gebruikt, ervaart volgens hem al een soort redenatie. Het verschil met o1 en DeepSeek R1 is dat dit niet een expliciet aparte stap is voordat je als gebruiker je ‘echte’ output ontvangt. Amodei verwacht dat meer AI-bedrijven sterker zullen leunen op Reinforcement Learning vanaf nu, inclusief Anthropic. Wellicht dat OpenAI met o3 alweer een stap verder denkt wanneer dat eind januari verschijnt.

Het leek ons naar aanleiding van de introductie van DeepSeek interessant om bovenstaande kenmerken van DeepSeek-R1 door te spreken in een aflevering van Techzine Talks. Moeten we de claims van DeepSeek geloven dat het deze prestaties bereikt heeft met verouderde hardware? Moeten we zwaar tillen aan de censuur die er in het model ingebouwd zit? En wat zal de blijvende impact zijn op de wereld van LLM’s en GenAI?

Podcastspeler

Bovenaan deze pagina staat de link naar de aflevering van Techzine Talks op YouTube. Wil je liever hier in de browser luisteren, dan kan dat hieronder.

Eerdere afleveringen van Techzine Talks:

Techzine Talks seizoen 5

Inmiddels is het alweer het vijfde seizoen van Techzine Talks! Coen en Sander maken sinds medio 2021 dé Enterprise IT-podcast van Nederland en België. De afgelopen twee jaar verscheen er elke week een nieuwe aflevering van Techzine Talks. In 2024 gaan we hiermee door en informeren we luisteraars over de laatste IT-ontwikkelingen, de belangrijkste informatie rondom techevents maar duiden we ook nieuwe IT-trends. Je kan elke week een nieuwe podcast verwachten, het doel is elke maandagmiddag rond de lunch, soms iets later. Met feestdagen soms een dagje later.

Steun ons!

We hopen uiteraard dat je ons als luisteraar steunt! Dat doe je door je te abonneren, afleveringen te delen en ons te beoordelen via Apple iTunes of Spotify. Vijf sterren ontvangen we graag! Ook staan we open voor feedback en je mag ons altijd ideeën sturen voor onderwerpen.

Meedoen?

Ben je een expert in een bepaald IT-vakgebied en wil je graag je kennis delen met onze luisteraars? Of heeft je organisatie de nieuwste en meest innovatieve IT-oplossing in huis? Neem contact op, dan bespreken we graag wat de mogelijkheden zijn.