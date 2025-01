Om ChatGPT te verwezenlijken, trainde OpenAI haar modellen op nagenoeg alle uithoeken van het publieke internet. Nu lijkt de eigen IP zelf gebruikt te zijn om een concurrent te ontwikkelen: DeepSeek-R1. OpenAI-CEO Sam Altman zegt de concurrentie te verwelkomen, maar andere signalen wijzen op een agressievere houding.

DeepSeek’s V3-model, de basis voor het latere R1, zou getraind zijn voor nog geen 6 miljoen euro. Dit heeft voor een grote schok gezorgd onder AI-bedrijven, met name van Amerikaanse komaf. OpenAI in het bijzonder dacht met o1 een veel krachtigere LLM te bezitten dan wie dan ook, met beperkte mogelijkheden voor de concurrentie om het bij te benen. Nu blijkt dat anders te zitten.

Privacyzorgen

Genoeg reden tot zorg, maar OpenAI, Microsoft en Amerikaanse concullega’s hebben meer aanmerkingen over het plotseling populaire DeepSeek. Zo klaagde een API-ontwikkelaar bij OpenAI dat Amerikanen maar wat graag hun data aan de Chinese Communistische Partij (CCP) afstaan. Een terechte zorg, maar op dezelfde wijze hebben gebruikers massaal hun dataprivacy achterwege gelaten in hun interacties met ChatGPT. Wellicht voelt het wat minder akelig om de gegevens af te staan aan een bedrijf vanuit een westers land, maar het feit blijft dat de dataverzameling een centraal onderdeel is voor alle grote AI-spelers. De twist: met een server die krachtig genoeg is, draai je DeepSeek’s allergrootste model gewoon on-prem zonder ooit het internet aan te spreken. Wie is nu de voorvechter van open AI en privacy?

Er zijn nog wat wildere suggesties over psychologische oorlogsvoering vanuit Beijing, gevoed door het feit dat DeepSeek-R1 in onaangepaste vorm controversiële onderwerpen voor het Chinese bewind vermijdt. Ook is het stellig over het “One China”-beleid, dat beweert dat Taiwan bij de Volksrepubliek van China hoort. Open-source ontwikkelaars proberen deze neiging eruit te filteren, met wisselend succes. AI-zoekmachine Perplexity maakt al gebruik van R1, waar het model een stuk neutraler over dergelijke kwesties praat. Ook IBM is op de DeepSeek-R1-trein gestapt en biedt de LLM aan via watsonx.ai. Gevaarlijk genoeg om te vermijden is het nieuwe model dus niet.

Hypocriet

Het DeepSeek-team wordt ervan beticht niet eerlijk te zijn over zijn ontwikkelproces. Zo zouden de werkelijke compute-kosten voor R1 veel hoger liggen en wordt er nergens genoemd wat het R&D-budget was. De trainingsmethode is voor OpenAI het grootste pijnpunt, want DeepSeek-R1 zou feitelijk van ChatGPT / o1 hebben kunnen leren. Via ‘distillatie’ heeft R1 de werking van o1 kunnen kopiëren met een kleiner model. Hetzelfde is al publiekelijk gedaan: DeepSeek heeft modellen beschikbaar die op basis van Alibaba’s Qwen en Meta’s Llama op dezelfde wijze als R1 redeneren, maar met een veel kleiner aantal parameters.

OpenAI zegt te weten dat o.a. Chinese bedrijven continu de API van GPT-4o en o1 aanspreken om de modellen te distilleren. Het Amerikaanse bedrijf probeert zich hiertegen te weren en wil voortaan voorkomen dat potentieel vijandige staten de AI-technologie in handen krijgen.

De focus op China is deels terecht. Immers wil het westerse bedrijfsleven geen AI-modellen gebruiken die incomplete of politiek gekleurde informatie bevatten. Het was alleen met closed-source LLM’s al niet mogelijk om te garanderen dat alle AI-outputs altijd in de juiste richting denken. Daarbovenop, zoals eerder gezegd: DeepSeek-R1 is open-source en een westers alternatief is daardoor op termijn mogelijk.

OpenAI kan niet anders dan zichzelf beschermen. Het heeft een verdienmodel te verdedigen dat door de spotgoedkope API-calls naar DeepSeek onder druk staat. Maar OpenAI zelf heeft eindeloos geprofiteerd van de lucratieve API’s van onder meer Twitter en Reddit om bergen aan trainingsdata te verzamelen. Dat was heimelijk maar niet verboden – op allerlei andere gegevens die OpenAI verzamelde stond wel gewoon auteursrecht. En in plaats van dat het toestemming vroeg om de data te gebruiken voor training, heeft het achteraf soms deals gesloten met media-organisaties en elders rechtszaken lopen. IP-behoud is dus niet een kwestie waar OpenAI over kan spreken zonder het schaamrood op de kaken te krijgen.

Lees en luister ook: Chinees LLM DeepSeek-R1 zorgt voor AI-paniek