Nvidia laat MoE-modellen tien keer sneller draaien

Nvidia laat MoE-modellen tien keer sneller draaien

Nvidia publiceert nieuwe benchmarkresultaten waaruit blijkt dat zijn nieuwste AI-serverplatform, de GB200 NVL72, de prestaties van moderne mixture-of-expertsmodellen (MoE) aanzienlijk verbetert.

Volgens het bedrijf draaien recente modellen, waaronder Moonshot AI’s Kimi K2 Thinking en modellen van DeepSeek, tot tien keer sneller dan op de vorige generatie systemen.

Mixture-of-expertsmodellen zijn gebaseerd op het idee dat niet alle onderdelen van een groot taalmodel tegelijk hoeven te worden ingezet. Een prompt wordt opgedeeld in deelvragen die worden verwerkt door gespecialiseerde submodellen, de experts. Alleen de meest relevante experts worden geactiveerd. Hierdoor dalen de rekenkosten, terwijl de modelcapaciteit kan toenemen. 

Mixture-of-expertsmodellen winnen snel terrein

De aanpak kreeg brede aandacht nadat DeepSeek begin 2025 liet zien dat een efficiënt opgezet MoE-model kon concurreren met modellen die veel meer GPU-tijd nodig hadden. Sindsdien hebben onder meer OpenAI, Mistral AI en Moonshot AI de architectuur opgenomen in hun nieuwste generatie modellen.

Nvidia schrijft de prestatiewinst van de NVL72 toe aan de schaalbaarheid van het systeem, waarin 72 GPU’s binnen één node zijn gekoppeld, en aan de verbeterde NVLink-verbindingen tussen die chips. Dit moet een efficiëntere routing mogelijk maken tussen actieve experts en een betere parallelle uitvoering dan bij eerdere generaties servers.

In het bericht van Nvidia worden verschillende modellen genoemd om die technische winst te illustreren. Daaronder vallen ook modellen uit China, zoals die van Moonshot AI en DeepSeek. Nvidia geeft daarbij geen specifieke duiding of geografische context, maar presenteert de resultaten als voorbeelden van workloads die profiteren van de nieuwe serverarchitectuur. In de berichtgeving van Reuters wordt dit wel breder geplaatst in de internationale AI-ontwikkelingen, waarbij modellen uit China steeds zichtbaarder worden en regelmatig worden ingezet om prestaties van nieuwe hardware te testen.

Nvidia heeft sterke positie in training

De aankondiging komt op een moment waarop de aandacht binnen de sector verschuift van training naar grootschalige uitvoering van modellen voor eindgebruikers. Nvidia heeft traditioneel een sterke positie in training, maar ondervindt bij inference meer concurrentie van onder andere AMD en Cerebras, die eveneens werken aan systemen waarin meerdere krachtige chips in één platform worden geïntegreerd. Deze systemen verschijnen naar verwachting volgend jaar op de markt.

De nieuwe cijfers laten zien dat uiteenlopende frontier-modellen goed kunnen opschalen op het GB200-platform. Tegelijkertijd ontwikkelen bedrijven in China eigen AI-hardware of verplaatsen zij trainingswerk naar buitenlandse datacenters waar geavanceerde chips wel beschikbaar zijn. De prestaties van MoE-modellen op de NVL72 maken volgens Nvidia duidelijk dat de nieuwe serverarchitectuur geschikt is voor verschillende generaties en herkomsten van grootschalige modellen.