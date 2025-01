Het nieuwe AI-model Tülu 3 405B is een nieuwe versie van Tülu 3, dat in november verscheen. Volgens ontwikkelaar Ai2 verslaat het product dankzij ‘post-training recipes’ DeepSeek.

Kort na de introductie van DeepSeek wordt de strijd in de AI-wereld weer opgevoerd. Zo zagen we Alibaba al met een model komen dat ook beter zou presteren dan DeepSeek. Nu is het de beurt aan Ai2 met Tülu 3 405B, dat met onderzoek stresstests uitvoerde op zijn Reinforcement Learning from Verifiable Rewards (RLVR)-benadering en traininginfrastructuur. De Reinforcement Learning-methode versterkt specifieke skills van het model.

RLVR is een onderdeel van het post-training recipe dat Ai2 toepast. Daar vallen verder de volgende zaken onder:

Zorgvuldige datacuratie en -synthese, gericht op kernvaardigheden

Supervised fine-tuning (SFT) op een zorgvuldig geselecteerde mix van prompts en hun voltooiingen

Direct Preference Optimization (DPO) op zowel off- als on-policy voorkeursgegevens

Een gestandaardiseerde evaluatiesuite voor de ontwikkelings-, decontaminatie- en laatste evaluatiefase

Waar komt claim vandaan?

DeepSeek wist in korte tijd aandacht te trekken met een open-sourcebenadering en door op goedkopere hardware te functioneren. Tegelijkertijd zijn de prestaties dik in orde, laten de benchmarks zien. Juist met benchmarks laat Ai2 nu zien DeepSeek te kunnen verslaan. Met name in PopQA (voor feitelijke informatie uit eigen kennis), GSM8K (voor rekenkundige vaardigheden) en HumanEval+ (voor codeergeneratiecapaciteiten) scoort Tülu 3 goed. Hieronder de vergelijkingstabel.

In sommige tests presteert DeepSeek echter beter, terwijl ook Llama 3.1 en GPT-4o het goed doen. Zo stellen de BigBenchHard- en MATH-benchmarks dat DeepSeek beter is in respectievelijk beredeneren en wiskunde.