2min

AI-ontwikkelaar xAI van Elon Musk heeft het basismodel, de onderliggende parameters en architectuur van het Grok-1 LLM definitief open source gemaakt. Dit was eerder al aangekondigd.

In een korte blogpost geeft de AI-ontwikkelstartup van Elon Musk meer details over een gedeelte van de netwerkarchitectuur van het structurele ontwerp van het Grok-1 LLM. Bijvoorbeeld hoe de verschillende lagen en nodes zijn vastgesteld en met elkaar verbonden zijn voor het verwerken van data.

Daarnaast is ook onthuld uit hoeveel parameters het basismodel achter het LLM bestaat en op is getraind. In het geval van Grok-1 zijn dat 314 miljard parameters. Onderliggende code van het LLM zijn onder meer JAX en Rust.

MoE-model

Meer specifiek is het basismodel een zogenoemd ‘Mixture-of-Experts’-model dat vanuit het begin door xAI is getraind. Een Mixture-of-Experts (MoE)-model is een machine learing-methode die de outputs van verschillende gespecialiseerde sub-modellen (de ‘experts’) met elkaar combineert. Dit moet een definitieve voorspelling opleveren die verschillende taken of data subsets optimaliseert op basis van de expertise van ieder individueel model.

Het trainen van een MoE-model vereist daarnaast minder rekenkracht, zodat binnen het bestaande rekenkrachtbudget makkelijker kan worden opgeschaald en de data-omvang kan worden uitgebreid. Ook biedt een MoE-model een efficiëntere pretraining en snellere inference dan modellen met een hoge dichtheid.

xAI is niet de enige AI-ontwikkelaar die een MoE-model gebruikt. Ook het Mixtral 8x7B LLM van Mistral AI is op deze methode gebaseerd.

Nog niet geschikt voor applicaties

Het Grok-1-model dat nu open source is gemaakt, is het ‘rauwe’ basismodel van de pre-trainingsfase uit oktober vorig jaar. Dit betekent volgens de AI-ontwikkelaar dat het model nog niet is geoptimaliseerd voor specifieke applicaties, zoals bijvoorbeeld het voeren van een dialoog. Dit betekent dat met de open source-release van Grok-1 nog niet echt interactieve GenAI-oplossingen en -toepassingen mogelijk zijn.

Meer details over het Grok-1 LLM-model zijn niet bekend gemaakt. In de release notes op GitHub wordt wel het advies gegeven het onder een Apache 2.0-licentie beschikbare testmodel te draaien op een computer met genoeg CPU-geheugen. Dit vanwege het grote aantal parameters waaruit het model bestaat.

Verder geven de ontwikkelaars van xAI aan dat de implementatie van de MoE-laag in de GitHub-repository nog niet efficiënt is. Deze implementatie kreeg de voorkeur om ervoor te zorgen dat er geen custom kernels nodig waren voor het valideren van de juistheid van het model.

Lees meer: xAI maakt deze week ChatGPT-concurrent Grok open source