Het Chinese AI-team achter DeepSeek onthulde vorige maand een nieuw model voor Optical Character Recognition (OCR). De echte doorbraak erachter is alleen relatief geruisloos de revue gepasseerd. DeepSeek-OCR belooft veel meer, namelijk aanzienlijk efficiëntere AI-modellen dan eerder voor mogelijk werd gehouden.
Reacties van experts op het AI-model DeepSeek-OCR zijn positief. Het is misschien niet state-of-the-art en expliciet bedoeld als proof-of-concept. Echter stelt OpenAI-medeoprichter Andrej Karpathy dat DeepSeek-OCR de AI-wereld mogelijk van een misvatting afhelpt. “Misschien (…) moeten alle inputs naar LLM’s altijd alleen afbeeldingen zijn.” Waarom? Afbeeldingen zouden weleens door LLM’s aanzienlijk efficiënter te verwerken zijn dan tekst dat is.
Lees ook: DeepSeek vertraagd door GPU-exportrestricties
Compressie
De moderne AI-opmars kent een compressie-obsessie. Elke manier om de voetafdruk van data te verkleinen, levert winsten op in tijd, energie en geld. Tegelijkertijd heerst er momenteel een opkoopklimaat; zogeheten AI-fabrieken kunnen niet snel genoeg op astronomische schaal worden gebouwd en volgezet met AI-chips. De aanname bij beide punten is dat je, ondanks alle pogingen data te verkleinen, je uiteindelijk je AI-infrastructuur zo groot en ambitieus mogelijk moet bouwen.
DeepSeek-OCR suggereert wel dat één manier om data te verkleinen over het hoofd wordt gezien. Visuele informatie, lang een onderschoven kindje en ‘bijvangst’ voor generatieve AI, lijkt veel efficiënter in de context window, ofwel het kortetermijngeheugen, van een LLM te passen. Het resultaat is dat je niet tienduizenden woorden, maar wellicht tientallen pagina’s, als data mee kunt geven aan een AI-model en dat dit model daarmee beter uit de voeten kan. Korter gezegd: pixels lijken betere compressiemiddelen voor AI dan tekst.
Een relatief kleine visuele encoder van 380 miljoen parameters is het motorblok achter DeepSeek-OCR. Hiermee wordt visuele informatie omgezet in een efficiënter alternatief. Bij OCR-toepassingen bestaat deze visuele informatie doorgaans uit tekstdocumenten. De gecomprimeerde informatie die de decoder uit deze documenten haalt, wordt vervolgens gevoed naar een decoder bestaande uit slechts 3 miljard parameters. De werkelijke berekeningen vinden slechts plaats door 570 miljoen parameters hiervan te activeren. Deze decoder levert het AI-antwoord van DeepSeek-OCR op de aanvankelijke input. Met een tienvoudige compressie van de data behaalt het model een accuratesse van 97 procent.
Een andere wereld
Het Chinese DeepSeek zorgde al voor tumult op de beurs door DeepSeek-R1 begin dit jaar. Het AI-model, dat gratis te downloaden was voor open-source gebruik, bleek opvallend vaardig voor het aantal parameters waaruit het bestond (671 miljard) en verreweg de sterkste open-source LLM op dat moment. Bovendien zou het normaliter veel kostbaardere AI-trainingsproces vrij goedkoop zijn geweest naar AI-maatstaven: omgerekend nog geen 300.000 euro.
Hoewel OpenAI’s modellen destijds toonaangevend bleven in AI-benchmarks, was het duidelijk dat DeepSeek op efficiënte wijze in de buurt kwam van die prestaties. Enige controverse rondom het ontstaan van R1 hing rond omdat DeepSeek het model mogelijk heeft getraind op talloze outputs van ChatGPT of de OpenAI-API. Je zou kunnen stellen dat R1 in zekere zin de vaardigheden van ChatGPT nabootste – of zelfs comprimeerde.
DeepSeeks rol in de AI-wereld lijkt met OCR verstevigd te worden. Specifiek lijkt het de compressiespecialist te worden voor generatieve AI. Van die specialisatie plukken andere AI-spelers de vruchten omdat de informatie open en bloot online verschijnt. Het onderzoek van DeepSeek is, in tegenstelling tot dat van OpenAI, Meta, Google, Anthropic en anderen, voor iedereen beschikbaar. Sommige van deze partijen publiceren wel modellen op open-source basis, maar bijvoorbeeld Google doet dat selectief. Gemini 2.5 Pro is propriëtair, het veel minder vaardige Gemma 3 niet.
Het is niet zeker hoe andere AI-modellen precies werken. Zo is het mogelijk dat Google haar gigantische context windows van Gemini te danken heeft aan een soortgelijke compressie van informatie. Echter is dit allerminst zeker, maar van Google krijgen we het antwoord niet. Wel is duidelijk dat optimalisaties als deze compressie uiteindelijk gemeengoed worden. Hetzelfde gold voor Mixture-of-Experts, het proces waarbij een AI-model niet volledig actief wordt bij een prompt, maar enkel de onderdelen activeert waar dat nodig is. Het vergt wel een speciale AI-training en een slimme ‘router’ die bepaalt welke componenten van een AI-model actief moeten worden.
Stof tot nadenken
DeepSeek-OCR zelf is geen doorbraak voor AI-toepassingen zelf. Het werk erachter wekt de suggestie dat efficiëntere AI-workloads mogelijk zijn en hoe. Toch moet het stof nog neerdalen en blijven sommige vragen onbeantwoord. Zo is onbekend of LLM’s voortaan alle inputs automatisch naar afbeeldingen moeten omzetten. Ook weten we niet of de werkwijze van DeepSeek niet al door onder meer Google en OpenAI wordt gebruikt. Dezelfde schok op de beurs zien we ook niet terug bij DeepSeek-OCR zoals gold voor R1.
De bevindingen kunnen op twee manieren AI vooruit helpen. Allereerst is het denkbaar dat LLM’s voortaan efficiënter omgaan met de informatie uit prompts. Door tekst om te zetten in afbeeldingen en deze visuele informatie te comprimeren, gaat er maar weinig accuratesse verloren. Ook is het mogelijk dat er veel meer data behapbaar wordt voor een AI-model. Denk hierbij aan grote hoeveelheden bedrijfsdata, stijlgidsen of compliance-vereisten. Hierdoor kan de output gedetailleerder en accurater blijken dan nu mogelijk is.