Nieuw Tülu 3 claimt DeepSeek te verslaan

Het nieuwe AI-model Tülu 3 405B is een nieuwe versie van Tülu 3, dat in november verscheen. Volgens ontwikkelaar Ai2 verslaat het product dankzij ‘post-training recipes’ DeepSeek.

Kort na de introductie van DeepSeek wordt de strijd in de AI-wereld weer opgevoerd. Zo zagen we Alibaba al met een model komen dat ook beter zou presteren dan DeepSeek. Nu is het de beurt aan Ai2 met Tülu 3 405B, dat met onderzoek stresstests uitvoerde op zijn Reinforcement Learning from Verifiable Rewards (RLVR)-benadering en traininginfrastructuur. De Reinforcement Learning-methode versterkt specifieke skills van het model.

RLVR is een onderdeel van het post-training recipe dat Ai2 toepast. Daar vallen verder de volgende zaken onder:

Zorgvuldige datacuratie en -synthese, gericht op kernvaardigheden
Supervised fine-tuning (SFT) op een zorgvuldig geselecteerde mix van prompts en hun voltooiingen
Direct Preference Optimization (DPO) op zowel off- als on-policy voorkeursgegevens
Een gestandaardiseerde evaluatiesuite voor de ontwikkelings-, decontaminatie- en laatste evaluatiefase

Waar komt claim vandaan?

DeepSeek wist in korte tijd aandacht te trekken met een open-sourcebenadering en door op goedkopere hardware te functioneren. Tegelijkertijd zijn de prestaties dik in orde, laten de benchmarks zien. Juist met benchmarks laat Ai2 nu zien DeepSeek te kunnen verslaan. Met name in PopQA (voor feitelijke informatie uit eigen kennis), GSM8K (voor rekenkundige vaardigheden) en HumanEval+ (voor codeergeneratiecapaciteiten) scoort Tülu 3 goed. Hieronder de vergelijkingstabel.

Tabel met prestatiebenchmarks voor verschillende modellen, waarbij de Tulu-3 405B-varianten als beste presteerders worden aangemerkt.

In sommige tests presteert DeepSeek echter beter, terwijl ook Llama 3.1 en GPT-4o het goed doen. Zo stellen de BigBenchHard- en MATH-benchmarks dat DeepSeek beter is in respectievelijk beredeneren en wiskunde.

Lees meer over Analytics

Expert aan het woord

Nieuw Tülu 3 claimt DeepSeek te verslaan

Waar komt claim vandaan?

Blijf op de hoogte, abonneer!

OpenAI stelt GPT-5.6 en beursgang uit: waarom?

Nederlands ToqanClaw is Europees OpenClaw-alternatief

GitHub Copilot, AI-assistent van het eerste uur, staat zwaar onder druk

OpenAI pakt open-source kwetsbaarheden aan met ‘Patch the Planet’

Why enterprises are running VMs on Kubernetes with Portworx

What sets Vultr apart from the hyperscalers and neoclouds?

Discover how edge AI transforms manufacturing with private 5G

Cisco wants to tackle the 80-tool security problem

Hoe inconsistente AI een probleem is voor multinationals

Waarom een AI die ‘goed genoeg’ is vaak de slimste keuze is

Bewegend speelveld: vier datamanagementvaardigheden die Nederlandse bedrijven nu nodig hebben

AI-security begint in de boardroom

GITEX AI EUROPE 2026

GOTO Copenhagen 2026

Tijd om virtualisatie te evalueren

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Zo gaat jouw IT-organisatie van reactief trainen naar roadmap-gedreven skills-opbouw