Microsoft heeft succes met Mixture of Experts-techniek bij Phi-3.5

Microsoft maakt een nieuwe familie LM’s bekend. De Phi-3.5-lijn bevat drie modellen, waaronder voor het eerst een model zit dat de Mixture of Experts-technologie gebruikt. Deze technologie brengt het model bijna op het niveau van GPT-4o-mini.

Phi-3.5 is door Microsoft beschikbaar gesteld op Hugging Face. Er zijn drie varianten: Phi-3.5-vision, Phi-3.5-MoE en Phi-3.5-mini. In deze reeks LM’s experimenteert Microsoft voor het eerst met de Mixture of Experts-technologie en die benadering blijkt zijn vruchten af te werpen. In de meestgebruikte benchmarks voor AI-modellen eindigt Phi-3.5-MoE hoger dan Llama-3.1 van 8B, Gemma-2-9B en Gemini-1.5.Flash. Dat terwijl de Phi-3.5-variant uit veel kleinere modellen bestaan van 3,8B.

In een Mixture of Experts-techniek zijn er meerder modellen aanwezig, die ‘experts’ worden genoemd, in dit geval zijn dat zestien modellen. In werking gebruikt het model echter slechts 6,6 miljard actieve parameters, door twee experts in te zetten.

Andere voordelen van de inzet van deze technologie, zitten in de training van het LLM. Het trainen is met name minder omvangrijk en vereist minder computerkracht met goedkopere modellen. Phi-3.5-MoE werd getraind op 4,9 biljoen tokens op 512 H100-GPU’s. Het mini-model uit de Phi-3.5-familie heeft dezelfde rekenkracht ter beschikking en is getraind op 3,4 biljoen parameters.

Tekst en afbeeldingen

Phi-3.5-vision tot slot werd getraind met 500 miljard parameters op 256 A100-GPU’s. Het resultaat is een 4,2B-model. Het opvallende kenmerk aan dit model is dat er mogelijkheden zijn om zowel tekst als beeld te verwerken. Afbeeldingen of video kunnen daardoor als input gegeven worden.

De drie modellen bevatten een context-window van 128K tokens. Alle modellen zijn via Hugging Face beschikbaar onder een MIT-licentie. Ontwikkelaars kunnen de AI-modellen dus gebruiken zoals Microsoft ze vrijgeeft of aanpassen naar eigen noden.

Lees ook: Open-source AI legt OpenAI en Google het vuur aan de schenen

Keuze van de redactie

IBM aast op eenvoud met AI-agents en automation

IBM wil verder kijken dan alleen AI. Het bedrijf wil bestaande workfl...

Insight: Analytics

Wat is het nieuwe AI-project Red Hat InstructLab?

Red Hat heeft een drukke week achter de rug met het afronden van de j...

Lees meer over Applications

Tech career

Tech calendar

Microsoft heeft succes met Mixture of Experts-techniek bij Phi-3.5

Tekst en afbeeldingen

Blijf op de hoogte, abonneer!

Hoe erg is het als de MITRE CVE-database verdwijnt?

IBM aast op eenvoud met AI-agents en automation

Waarom Intel 20 procent van het eigen personeel schrapt

Google laat AI-agents data-werk in BigQuery en Looker afhandelen

Data-analisten nog altijd erg afhankelijk van spreadsheets

Volwassen benadering geeft SAS een voordeel in AI-markt

Wat is het nieuwe AI-project Red Hat InstructLab?

AI & Data Architect

Cloud Account Executive – Slack

SAS Innovate 2025

.NEXT 2025

LambdaConf 2025

Qlik Connect 2025

Red Hat Summit

Kaseya DattoCon Europe

Probeer gratis het nieuwste high-end Synology backup-systeem

Versterk je cybersecurity met DNS best practices

Navigeren door technologische ontwrichting

Hoe selecteer je het juiste ERP-systeem?