Nvidia herverpakt krachtig AI-model tot handzamer formaat

Door 'snoeien' en 'distilleren' blijft alleen het belangrijkste over

Nvidia herverpakt krachtig AI-model tot handzamer formaat

In navolging van Microsoft heeft ook Nvidia een kleiner AI-model uitgebracht dat lokaal kan draaien op apparatuur met minder rekenkracht. Het Mistral-NeMo-Minitron 8B-model is een verkleinde versie van een eerder model dat is ontwikkeld in samenwerking met de Franse AI-startup Mistral. Het geheim erachter betreft twee innovatieve technieken die samen te vatten zijn als ‘snoeien en distilleren’.

Volgens Kari Briski, hoofd van de AI en HPC-afdeling van Nvidia, is dit model klein genoeg om op RTX-workstations te draaien. Tegelijk is het krachtig genoeg om benchmarks te doorstaan voor robuuste AI-chatbots, virtuele assistenten, contentgenerators en educatieve tools. Het zou zelfs geschikt zijn voor laptops en edge devices. Met andere woorden: je hebt niet altijd een kanon van een LLM nodig voor AI-taken die ook wel met minder toekunnen.

Om het model klein maar toch voldoende effectief te houden, zijn twee technieken toegepast waarbij een groter model (namelijk het 12 miljard parameters tellende Mistral NeMo 12B, zelf pas een maand oud) wordt teruggebracht tot een aanzienlijk handzamer formaat. Door ‘pruning’ (snoeien) toe te passen, zijn componenten uit de codebasis verwijderd die voor de bedoelde taken niet noodzakelijk zijn.

Verder trainen op specifieke dataset

De volgende stap betreft ‘distilling’ (distillatie) waarbij het verkleinde model verder wordt getraind op een kleinere, specifieke dataset. Dat gebeurt om de nauwkeurigheid te vergroten. Het voordeel van dergelijk ‘verkleinen’ van een groter model ten opzichte van het trainen van een geheel nieuw small language model, is dat het goedkoper is en een betere kwaliteit aan output oplevert voor de betreffende taken.

De code voor het model is op Hugging Face beschikbaar onder een open-source licentie. Het model zelf is beschikbaar als Nvidia NIM-microservice, met bijbehorende API. Er komt nog een downloadbare versie aan die op elk systeem met een voldoende krachtige GPU kan draaien.

Ook Microsoft experimenteert met modellen die efficiënt omgaan met hardware. Gisteren kondigde het drie nieuwe varianten aan van de Phi-3.5-lijn. Daar zit een model bij dat voor het eerst in deze lijn de Mixture of Experts-technologie gebruikt.

Lees verder: Microsoft heeft succes met Mixture of Experts-techniek bij Phi-3.5