OpenThinker-32B behaalt baanbrekende resultaten met slechts 14% van de data die DeepSeek nodig heeft. Het is een overwinning voor open-source AI.
Een team van internationale onderzoekers van toonaangevende academische instellingen en techbedrijven bracht woensdag de AI-sector in beroering met een nieuw model. Het kan wedijveren met DeepSeek en presteert vaak zelfs beter. Dit meldt DeCrypt.
OpenThinker-32B, ontwikkeld door het Open Thoughts-consortium, behaalde een nauwkeurigheidsscore van 90,6% op de MATH500-benchmark en overtrof daarmee de 89,4% van DeepSeek. Het model presteerde ook beter op algemene probleemoplossende taken, met een score van 61,6 op de GPQA-Diamond-benchmark. Daar behaalde DeepSeek’s Qwen 32B-distillatie 57,6. Op de LCBv2-benchmark behaalde het een solide 68,9, wat sterke prestaties aantoont in diverse testscenario’s.
Met andere woorden: het model presteert beter dan een even grote versie van DeepSeek’s distillatie op het gebied van algemene wetenschappelijke kennis (GPQA-Diamond). Het versloeg DeepSeek ook op MATH500, hoewel het onderdeed op de AIME-benchmark. Beide benchmarks meten wiskundige vaardigheden.
De kracht van open-source
Op het gebied van programmeren scoorde OpenThinker iets lager dan de Chinese concurrent, met 68,9 punten versus 71,2. Maar omdat het model open-source is, kunnen deze scores aanzienlijk verbeteren zodra de gemeenschap het verfijnt.
Wat deze prestatie uniek maakt, is de efficiëntie. OpenThinker had slechts 114.000 trainingsvoorbeelden nodig om deze resultaten te bereiken, terwijl DeepSeek er 800.000 gebruikte.
Gedetailleerde metadata voor elk probleem
De OpenThoughts-114k dataset bevat gedetailleerde metadata voor elk probleem. Namelijk grondige oplossingen, testcases voor codeproblemen, startercode waar nodig en domeinspecifieke informatie. Het aangepaste Curator-framework valideerde codeoplossingen aan de hand van testcases, terwijl een AI-rechter de wiskundige verificatie afhandelde.
Een Chinees AI-laboratorium bouwde met DeepSeek niet alleen een goedkoper AI-model. Het legde ook de inefficiëntie van de hele sector bloot. De doorbraak van DeepSeek toonde aan hoe een klein team, met kostenbesparing als doel, AI-modellen op een geheel nieuwe manier kon ontwikkelen. Terwijl techgiganten zoals OpenAI en Anthropic miljarden dollars besteden aan rekencapaciteit, zou DeepSeek vergelijkbare resultaten behalen voor slechts iets meer dan $5 miljoen.
DeepSeek gaf sector een impuls
De AI-sector kreeg een impuls nadat DeepSeek’s prestaties vergelijkbaar met OpenAI’s GPT-4o demonstreerde, maar tegen aanzienlijk lagere kosten. DeepSeek R1 is gratis te downloaden, gebruiken en aanpassen, en de trainingstechnieken zijn ook openbaar gemaakt. Maar in tegenstelling tot Open Thoughts, dat alles open-source maakte, hield het Chinese ontwikkelingsteam zijn trainingsdata geheim.
Dit betekent dat ontwikkelaars OpenThinker waarschijnlijk beter zullen begrijpen en gemakkelijker kunnen reproduceren dan DeepSeek, omdat ze toegang hebben tot alle stukjes van de puzzel.
Betrouwbaar alternatief
Voor de bredere AI-gemeenschap bewijst deze release opnieuw dat het mogelijk is om concurrerende modellen te bouwen zonder enorme, eigendomsgebonden datasets. Bovendien zou OpenThinker een betrouwbaarder alternatief kunnen zijn voor westerse ontwikkelaars die nog steeds twijfelen over het gebruik van een Chinees model, zelfs als het open-source is. OpenThinker is beschikbaar voor download op Hugging Face. Een kleinere, minder krachtige versie met 7 miljard parameters is ook beschikbaar voor minder krachtige apparaten.
Het Open Thoughts-team bracht onderzoekers samen van verschillende Amerikaanse universiteiten, waaronder Stanford, Berkeley en UCLA, evenals het Juelich Supercomputing Center in Duitsland. Het in de VS gevestigde Toyota Research Institute en andere Europese AI-instellingen steunen het project eveneens.