Stoot Groq Nvidia van de AI-troon met de LPU?

Stoot Groq Nvidia van de AI-troon met de LPU?

Hardwareproducent Nvidia is voorlopig de grote winnaar van de AI-revolutie. Als fabrikant van de GPU’s die alles van ChatGPT tot GitHub Copilot en Google Gemini realiseren, is de marktwaarde boven de 2 biljoen dollar gestegen. Het bedrijf zal niet stilzitten, maar er zijn is met Groq en haar LPU een concurrent in aantocht. Hoe ziet de toekomst van AI-hardware eruit?

Wie AI op grote schaal wil draaien, is van Nvidia afhankelijk. Niet alleen omdat dat bedrijf de benodigde hardware in huis heeft, maar ook omdat het eigen softwareplatform (CUDA) diepe wortels heeft in de developer-gemeenschap. Met nagenoeg een monopolie in de datacenterwereld was Nvidia perfect voorbereid op de plotselinge opmars van generatieve AI (GenAI) eind 2022. Wie de riante AI-positie van dit bedrijf als een gelukstreffer ziet, vergeet dat het bedrijf al tijden geleden een levensgrote kans zag en na het grijpen van die kans nu weigert los te laten.

Voorspelling lijkt uit te komen

Nvidia gokt er namelijk al sinds zijn oprichting in 1993 op dat accelerated computing de toekomst is. Dit houdt kortweg in dat elke workload optimale, daartoe speciaal toegeruste hardware vereist, in plaats van één CPU-ontwerp die alle denkbare berekeningen moet uitvoeren. Die voorspelling lijkt met AI uit te komen, met de snelste GPU’s ter wereld als aandrijving.

Hoe dan ook wil de techindustrie verder opschieten met AI. Niet alleen door zoals Meta honderdduizenden GPU’s van een bestaand ontwerp te bemachtigen, maar ook door simpelweg hardware met betere prestaties in te kopen en krachtigere modellen te creëren. Dell-COO Jeff Clarke stelde recent dat Nvidia die vraag gaat beantwoorden met de zogeheten B200, waarvan een enkele kaart al wellicht 1000 Watt zal verbruiken bij volledige inzet. Aangezien AI-training tot wel honderden van deze GPU’s kan vereisen, lijkt hier van duurzaamheid weinig sprake. Alles wijkt voor de snelste AI-prestaties om de laagste latency, de kortste ontwikkeltijd en de best functionerende chatbots te kunnen leveren.

Verandering op komst

We hebben al eerder uitgelicht dat Nvidia eigenlijk geen rivalen heeft. De prestatiewinst ten opzichte van concurrenten als Intel en AMD is dermate groot dat klanten bereid zijn lang te wachten op Nvidia-producten. Enkel op het gebied van inferencing, het dagelijks draaien van een AI-model dat al getraind is, zijn reële alternatieven te bedenken. Het grootste denkwerk is dan namelijk al verricht.

De afhankelijkheid van Nvidia op het gebied van inferencing zal dan ook geleidelijk afnemen. Microsoft sloot onlangs een deal met Intel voor de productie van eigen ARM-gebaseerde chips, mogelijk voor de inzet van AI in datacenters. Het ligt voor de hand dat Microsoft’s orders van Nvidia-GPU’s daarmee op termijn gaan afnemen. Aangezien men in Microsoft’s thuisbasis Redmond tevens bezig is met het effectief verkleinen van AI-modellen om de vereiste rekenkracht te verminderen, ziet het ernaar uit dat de afhankelijkheid van Nvidia niet eeuwig zal blijven gelden.

Nvidia is alomtegenwoordig

Bij andere techbedrijven vinden soortgelijke bewegingen plaats: zowel AWS als Google Cloud hebben bijvoorbeeld eigen chips die geschikt zijn voor het dagelijks draaien van AI in de cloud. Laatstgenoemde is daarin zelfs uiterst vooruitstrevend geweest met de Tensor Processing Unit, dat Google al sinds 2015 intern gebruikt. Het unieke voordeel ten opzichte van Nvidia-hardware is dat alle architecturele keuzes gericht zijn op AI-workloads. Zoals gezegd is Nvidia echter alomtegenwoordig in de datacenterwereld en was het om die reden een meer voor de hand liggend thuis voor GenAI zoals we het nu kennen.

Eigenlijk zou je verwachten dat AI-workloads helemaal niet op GPU’s zouden draaien. Wel blinken ze kort gezegd uit in parallel processing, oftewel het tegelijkertijd afronden van verschillende berekeningen met duizenden cores. Dit in tegenstelling tot CPU’s, die hooguit net boven de 100 cores hebben en daardoor niet de talloze AI-berekeningen op een wenselijk tempo afronden. Echter zijn GPU’s van oudsher bedoeld voor grafische applicaties en is er dus veel overhead om voor AI geschikt te zijn. Deze complexiteit is in feite niet nodig voor elke individuele soort workload, maar maakt een GPU een “GPGPU”: een general purpose graphical processing unit. Als je enkel AI wil draaien, is dat gewoonweg extra baggage.

Groq: het antwoord op GPU’s

Inmiddels is de bedenker van Google’s Tensor Processing Unit (TPU) elders aan het werk. Bij het in 2016 gelanceerde Groq tracht CEO Jonathan Ross het wiel opnieuw uit te vinden. In dit geval mag Nvidia op den duur zijn borst nat maken. Een week geleden gooide Ross namelijk hoge ogen met zijn nieuwe uitvinding: de Language Processing Unit (LPU), dat chatbots razendsnel antwoorden laat genereren. In een snelheidstest versus ChatGPT was het contrast gigantisch. Er dient gezegd te worden dat de Groq-bot draaide op Meta’s Llama 2 70B-model, dat vele malen kleiner is dan GPT-4 Turbo, de LLM achter ChatGPT.

Het eerder genoemde voordeel van TPU’s steekt andermaal de kop op bij Groqs chip. Aangejaagd door Tensor Stream Processors (TSP’s) kan de LPU zonder al te veel overhead direct de benodigde AI-berekeningen maken. Het zou de hardware-eisen voor grote AI-modellen kunnen versimpelen, mocht Groq verder komen dan de public demo die het onlangs naar buiten bracht.

Het antwoord is niet 1000W per GPU

Dat Nvidia nu op 1000W mikt per GPU om de krachtigste AI te draaien, zou velen zorgen moeten baren. We benadrukken dat Nvidia-chips in datacenters gezamenlijk te werk gaan, dus het totale Wattage bereikt al gauw astronomische proporties. De huidige H100-GPU verbruikt hooguit 700W in bepaalde configuraties. Hoewel het verwachte verbruik van Nvidia-hardware keer op keer lager uitvalt dan geruchten vooraf suggereren, zou het nu weleens menens kunnen zijn. Nvidia heeft namelijk een grotere prikkel dan ooit om de AI-prestaties op een zo hoog mogelijk niveau te tillen. Het verkoopt elke GPU die het kan leveren en hoeft achteraf niet de energierekening te betalen.

Het is alleen niet een houdbaar initiatief voor de wereldwijde economie om nagenoeg eindeloze hoeveelheden stroom en water erdoorheen te jagen. De hoop dient gevestigd te zijn op alternatieven als Groq om AI-workloads op langere termijn te realiseren. Nvidia heeft andere belangen.

CUDA-software, het instrument om AI te ontwikkelen, is naast de hardware cruciaal voor de eenzame koppositie van Nvidia. Zelfs als LPU’s van Groq of acceleratoren van andere partijen doorbreken, zal CUDA een belangrijke rol blijven spelen. Alternatieve GPU’s van Intel en AMD, eveneens gericht op de datacenterwereld, teren op vertalingslagen richting CUDA om aantrekkelijk te zijn. Maar nu Nvidia de AI-industrie in zijn greep heeft, weigert het los te laten. Om die reden heeft het bedrijf de CUDA-gebruiksvoorwaarden van een update voorzien: vertalingslagen mogen niet meer.

We mogen dus geen coöperatieve houding van Nvidia verwachten als het om AI-hardware gaat. Het is aan partijen als Groq om een reëel alternatief te bedenken. Dat Groq zich richt op pure prestaties is een slimme zet. Immers is enkel efficiëntie als argument klaarblijkelijk niet overtuigend genoeg om van Nvidia af te stappen.

Beluister ook onze Techzine Talks-aflevering over Nvidia’s nieuwe rol in de tech industrie: