Microsoft lanceert drie nieuwe geavanceerde kleine taalmodellen als uitbreiding van de Phi-reeks. Deze modellen beschikken over redeneervermogen, waarmee ze complexe vragen kunnen analyseren en effectief beantwoorden.
De woensdag gepresenteerde modellen – Phi-4-reasoning, Phi-4-reasoning-plus en Phi-4-mini-reasoning – zijn ontworpen om lokaal te draaien op een pc met een grafische processor of op mobiele apparaten. Ze zijn bedoeld voor situaties waarin snelheid en efficiëntie belangrijk zijn, zonder in te leveren op intelligentie.
Deze lancering volgt op Phi-3, waarin al ondersteuning voor meerdere modaliteiten werd toegevoegd aan de compacte modelreeks.
Phi-4-reasoning bevat 14 miljard parameters en is volgens Microsoft in staat om prestaties te leveren die vergelijkbaar zijn met grotere modellen bij complexe taken. Phi-4-reasoning-plus heeft dezelfde omvang, maar is verder verfijnd via reinforcement learning en verwerkt 1,5 keer meer tokens om een hogere nauwkeurigheid te bereiken. Dit zorgt wel voor langere verwerkingstijd en meer rekenkracht.
Wiskundige toepassingen
Het kleinste model, Phi-4-mini-reasoning, bevat 3,8 miljard parameters en is geoptimaliseerd voor wiskundige toepassingen. Het is vooral bedoeld voor gebruik op mobiele devices en andere apparaten met beperkte capaciteit, en richt zich onder meer op educatieve doeleinden.
Volgens Microsoft vormen de Phi-reasoning modellen een nieuwe categorie kleine taalmodellen. Door technieken zoals distillatie, reinforcement learning en hoogwaardige trainingsdata te combineren, is er een balans gevonden tussen modelgrootte en prestaties. Ze zijn klein genoeg voor gebruik in systemen met lage vertragingstolerantie, maar kunnen qua redeneervermogen concurreren met veel grotere modellen.
Om deze mogelijkheden te bereiken, is Phi-4-reasoning getraind met webdata en geselecteerde voorbeelden van OpenAI’s o3-mini model. Phi-4-mini-reasoning is verder verfijnd met synthetische lesdata, gegenereerd door Deepseek-R1. Deze trainingsset bevatte meer dan een miljoen wiskundige opgaven van uiteenlopende moeilijkheidsgraden, van middelbare school tot promotieniveau.
Synthetische data worden vaak gebruikt om AI-modellen te trainen via een lerarenmodel, dat oefenmateriaal maakt en verrijkt. Zo’n model kan talloze wiskunde- en natuurkundeopgaven genereren, inclusief stapsgewijze oplossingen. Op die manier leert het studentmodel hoe het tot een antwoord komt, en niet alleen wat het antwoord is. Door de opgaven af te stemmen op diverse curricula, kan het model breed en diep presteren terwijl het toch compact blijft.
Betere prestaties dan zwaardere modellen
Ondanks hun kleinere omvang presteren Phi-4-reasoning en Phi-4-reasoning-plus volgens Microsoft beter dan modellen zoals OpenAI’s o1-min en DeepSeek1-Distill-Llama-70B op veel wiskundige en wetenschappelijke tests op Ph.D.-niveau. Ook zouden ze beter scoren dan het volledige DeepSeek-R1 model (671 miljard parameters) op de AIME 2025 test, een drie uur durende wiskundecompetitie die dient als kwalificatie voor de Amerikaanse deelname aan de Internationale Wiskunde Olympiade.
De nieuwe Phi-4 modellen zijn nu beschikbaar via Azure AI Foundry en HuggingFace.