Nvidia’s marktdominantie op het gebied van AI-hardware kan nauwelijks worden overschat. We bekijken waarom zoveel beoogde opvolgers alsnog denken dat ze een kans maken.
We hebben eerder al uiteengezet hoe indrukwekkend Nvidia’s positie is in de AI-hardwaremarkt. De GPU-chips van het bedrijf voeden de enterprise AI-uitrol van training tot inference in datacenters wereldwijd. Duizenden van deze chips worden samen ingezet om frontier-modellen te trainen, zoals de modellen achter ChatGPT van OpenAI, Meta’s Llama LLM’s en de meeste andere opties op de markt. Het Chinese DeepSeek had weliswaar minder en minder krachtige chips nodig dan anderen, maar alsnog koos men voor Nvidia. Het bedrijf heeft enorm veel invloed dankzij zijn bijna-monopolie op GPU’s in het datacenter. Ontwikkelaars hebben CUDA al lang omarmd. Dit is het exclusieve framework voor Nvidia-chips. Geen echte concurrent is tot nu toe opgestaan, hoewel velen in de rij staan om de troon te bestijgen.
Maar we hebben dit eerder gezien. Hoewel geen enkel bedrijf een opleving op de beurs heeft meegemaakt die zo drastisch is als Nvidia’s klim naar een waarde van biljoenen dollars, hebben bedrijven als IBM en (recentelijker) Intel bewezen dat zelfs de grootste mogendheden kunnen vallen. Een al te zelfverzekerde houding kan er insluipen wanneer je de koploper bent. Er kan ook een braindrain ontstaan zodra alle sleutelfiguren achter het Nvidia-succes vertrekken om vroeg en zeer lucratief met pensioen te gaan.
Een mogelijke zwakte
Een andere zwakte voor Nvidia kan liggen in de feitelijke producten: GPU’s. Het zijn extreem capabele general-purpose parallel processors, ontworpen om parallelisatie beter aan te kunnen dan welke gangbare processor ook. Toch lijkt er een grens in zicht. De laatste twee generaties chips (Ada Lovelace en Blackwell) hebben al de maximale reticle-grootte van TSMC bereikt.
Met andere woorden: het silicium kan niet groter worden dan het nu is. Blackwell moet dit oplossen door chips te fuseren, maar dat heeft al geleid tot kostbare vertragingen. Die kunnen zich ook voordoen bij de volgende generatie, Rubin, en daarna. Dit geeft eventuele concurrenten de kans zich te ontpoppen. Bovendien is er een inherente overhead in de manier waarop GPU’s worden ingezet. Dit is ‘vet’ dat door een potentiële rivaal kan worden weggesneden. GPU’s zijn veelzijdig en zijn als AI-engines ingezet niet omdat ze ontworpen zijn om GenAI-workloads efficiënt te draaien, maar omdat ze simpelweg de dichtstbijzijnde compute waren die schaalbaar genoeg is voor overal AI.
De weg naar het omverwerpen van Nvidia loopt via een specifieke, GenAI-gecentreerde architectuur. Een chip die in wezen op maat is gemaakt voor de AI-revolutie, met alle efficiëntie en snelheid die daarbij horen. Hun voornaamste voordeel zou zijn om alle GPU-overhead te schrappen en onnodig silicium weg te snijden dat Nvidia-hardware zo veelzijdig maakt. Er zijn bedrijven die precies dit proberen te doen.
Cerebras: een wafer-scale “model on a chip”
De beloften van Cerebras Systems liegen er niet om. Met de claim “world’s fastest inference” – 70x sneller dan op GPU’s – is deze Amerikaanse onderneming naar voren gekomen als een van de meest prominente alternatieven voor Nvidia. Als je dacht dat een Blackwell-chip al groot was, neem dan eens een kijkje bij de kolossen van Cerebras. Hun processors zijn “wafer-scale”. Dit betekent dat ze een rechthoekig siliciumoppervlak zijn dat zo groot is als je uit een ronde 300mm wafer bij TSMC kunt halen.
Een enkele Cerebras WSE-3 heeft 44GB on-chip memory, ongeveer 880 keer zoveel als een Nvidia H100. De echte triomf is echter de bandbreedte van dit geheugen. Dit is vaak de bottleneck bij GenAI-training en inference: met 21 Petabytes per seconde is die bandbreedte zo’n zevenduizend keer hoger dan die van een H100. Uiteraard is dit allemaal theoretische throughput. Zelfs veronderstelde ‘apples-to-apples’ benchmarks zeggen niet altijd hoeveel optimalisatie er nodig is om de indrukwekkende specificaties ten volle te benutten.
Toch geeft de lijst met klanten van Cerebras meer vertrouwen in de toekomst van het bedrijf. Meta, Docker, Aleph Alpha en Nasdaq behoren tot de gebruikers van deze chiptechnologie. Dit kan via een of meerdere van de Cerebras-diensten, variërend van overkoepelende AI Model Services tot pay-per-hour of pay-per-model-oplossingen voor training, fine-tuning en/of inference op schaal. De Llama 3.3-modellen, Mistral en Starcoder zijn enkele sprekende voorbeelden van Cerebras-compatibele LLM’s met serieuze steun erachter.
Het is buitengewoon waarschijnlijk dat Cerebras meer nodig zal hebben dan de 720 miljoen dollar die het tot dusver in zes financieringsrondes heeft opgehaald. Nvidia besteedt immers meer dan 80 miljard dollar per jaar aan R&D. Een eventuele beursgang van deze wafer-scale rivaal kan die kloof misschien wat dichten. Uiteindelijk kunnen prestaties en efficiëntie de doorslag geven in het voordeel van Cerebras.
Wat duidelijk is, is dat de enorme hoeveelheid on-chip memory het chipontwerp veel beter laat aansluiten op wat AI-modellen nodig hebben, dan een cluster van GPU’s die via Ethernet of Nvidia’s eigen InfiniBand aan elkaar zijn geknoopt. De model weights en activaties zijn immers direct beschikbaar, vrijwel met de snelheid van het licht, in plaats van via de relatief trage interconnects te reizen. We hebben het hier over nanoseconden verschil, maar dat is toch enkele ordes van grootte. Wanneer je dat optelt over maanden van AI-training en inference, worden zulke verschillen enorm.
SambaNova: data staat centraal
Een andere uitdager volgt een ander architecturaal pad: SambaNova. Al vier jaar geleden, ruim voor ChatGPT het toneel betrad, had het bedrijf al een miljard dollar bijeengebracht. Net als Cerebras zijn de huidige oplossingen ontworpen als Nvidia-alternatief en wordt gewezen op de inherente AI-tekortkomingen van laatstgenoemde. SambaNova noemt zijn RDU (reconfigurable dataflow unit) “gebouwd voor de volgende generatie AI-workloads, ook wel Agentic AI”. Met andere woorden, het bedrijf heeft zijn hardware georganiseerd rond de compute graph van het model, in plaats van te vertrouwen op sequentiële instructies.
Een enkele SN40L RDU kan naar verluidt “honderden modellen” in-memory bevatten. Dit komt door een immense 1.5 TB aan DRAM, met nog eens 64GB aan co-packaged HBM en een razendsnelle 520MB aan SRAM als cache. Een enkele SN40L-node kan data transporteren met meer dan 1TB per seconde. Op het eerste gezicht lijkt Nvidia dat te dekken met 8 TB/s voor de nieuwste GPU-generatie Blackwell. Toch claimt SambaNova dat zijn dataflow-architectuur zorgt voor de snelste inference ter wereld op Llama 3.1 405B. Volgens het bedrijf maakt de ingebouwde efficiëntie van de RDU bij dataverwerking een hoger prestatieniveau mogelijk dan traditionele GPU’s, en dat met “een fractie van de footprint”.
Waar SambaNova in de enterprise precies is geïmplementeerd, is iets minder duidelijk. Laboratoria zoals Argonne en Lawrence Livermore lijken het te gebruiken, evenals sommige gespecialiseerde bedrijven in de gezondheidszorg. Het uiteindelijke doel van SambaNova is het leveren van een on-prem AI-trainingsoplossing voor enterprises. Ondanks de grote investeringen moeten we nog meer grote namen SambaNova zien adopteren om langdurige levensvatbaarheid te kunnen garanderen – of dat nu via een officiële aankondiging gebeurt of niet.
Groq: de belofte van de laagste latency
Nog een AI-startup die mikt op een GPU-alternatief is Groq. De ontwikkeling van zijn Language Processing Unit (LPU) werd geleid door ex-Google TPU-ontwerper Jonathan Ross. De LPU werd begin 2024 gelanceerd en is online uit te proberen. Terwijl andere potentiële Nvidia-rivalen zich richten op zowel training als inference, zijn Groq’s doelen glashelder: “Groq is Fast AI Inference”. Via OpenAI-compatibele API-koppelingen wil het bedrijf gebruikers weglokken bij het gebruik van gesloten modellen zoals GPT-4o en o1. Er is dus een reële kans op een samenwerking met partijen als Meta en DeepSeek.
Dat laat al zien dat Groq zich misschien niet direct tegen Nvidia opstelt. Sinds we het bedrijf een jaar geleden bespraken, is duidelijk dat bedrijven zoals Groq liever de eindgebruiker direct benaderen en de hardware zelf abstraheren. Het einddoel is de laagste latency mogelijk. Als je Llama 3.3 70B snel wilt draaien zonder lokale hardware, kan dit de juiste oplossing zijn. Aangezien Groq geen heldere info geeft over grote hardwaredeals, kunnen we alleen aannemen dat ze er niet veel hebben, behalve dan nationale laboratoria die ermee experimenteren en klanten die Groq via de API benaderen.
De LPU is echter wederom een voorbeeld van het afstappen van de GPU om de feitelijke behoeften van enterprises direct te bedienen. “De Groq LPU-architectuur is begonnen met het principe van ‘software-first’,” aldus het bedrijf, wat heeft geresulteerd in een chip die is toegewijd aan linear algebra – “de primaire vereiste voor AI-inference”. In essentie is de compiler leidend geweest voor de chip-layout, en zijn er geen routers of controllers die de interne communicatie belemmeren. De LPU is een “assembly line” of “conveyor belt”, in de terminologie van Groq, die data verplaatst tussen de verschillende on-chip memory-modules en chips. Dit moet de GPU overhead omzeilen die inherent is aan wat het bedrijf een “hub and spoke”-benadering van Nvidia noemt.
Het eindresultaat is een chip met 750 TOPS. Hij heeft 230 MB SRAM per chip en 80 TB/s aan on-die geheugenbandbreedte. Aangezien één GroqChip slechts een onderdeel is van een GroqRack compute-cluster, zijn deze basisspecificaties niet waar het bedrijf de nadruk op legt. De belangrijkste troef is snelle inference, boven alles. Misschien zorgt de brede AI-adoptie ervoor dat Groq een niche vindt, zeker als inference de nadruk krijgt. Tot dusver kunnen we alleen afgaan op de 1.425.093.318 totale requests naar Groq-gebaseerde LLM’s op het moment van schrijven.
Etched: een transformer ASIC om het allemaal te verslaan
De meest gelijkende tegenhanger van een transformermodel (oftewel: alle GenAI-modellen) is een transformer ASIC. “Transformers etched into silicon,” zo beschrijft Nvidia-uitdager Etched zijn Sohu-chip. Deze lijkt behoorlijk op een GPU, compleet met VRM’s rond de siliciumdie en een rechthoekige add-in card-vorm. Acht van deze chips zouden samen de throughput van acht Nvidia B200 GPU’s overtreffen, om nog maar te zwijgen van acht oudere H100’s die een nog korter staafje op de benchmarks krijgen. Het eindresultaat: 500.000 tokens per seconde met Llama 70B.
144GB HBM3E leveren data aan slechts één ‘core’, in feite een LLM-architectuur die rechtstreeks op een siliciumwafer is overgezet. De ondersteuning zou reiken tot zelfs 100 biljoen parameters, veel groter dan de huidige state-of-the-art LLM’s. Een volledig open-source softwarestack moet aantrekkelijk zijn voor wie geen zin heeft in de omheinde CUDA-omgeving van Nvidia.
Cruciaal is dat Etched Nvidia raakt waar het pijn kan doen. Zoals gezegd zijn GPU’s ongeveer zo groot als ze kunnen worden. Ze kunnen niet verder groeien zonder diverse trucs, zoals het bouwen van interconnects die doorgaans achterblijven bij de snelheid die in het silicium zelf behaald kan worden. Bovendien zijn sommige andere concurrenten niet algoritme-specifiek, zoals Etched dat wél is. Wat onduidelijk blijft, is echter wanneer deze Sohu-chip precies zal verschijnen. Na wat media-aandacht halverwege 2024 is het stil geworden.
AMD, Intel, Google, Amazon…
We moeten ook enkele andere, bekendere mogelijke Nvidia-rivalen noemen. De meest voor de hand liggende is AMD, dat zijn Instinct MI-serie accelerators bouwt als dichtstbijzijnde vervanger voor Nvidia GPU’s. Sommige AMD-producten combineren zelfs Instinct met Epyc in een chiplet-ontwerp. Dit fuseert GPU- en CPU-vermogen om een veelbelovend alles-in-één AI-pakket te leveren. Het probleem is dat AMD’s ROCm-software onvoldoende wordt gebruikt en ondersteund. CUDA domineert, en dus Nvidia ook. Waarom frameworks of pipelines ontwikkelen voor een chip die niet zo alomtegenwoordig is als die van de concurrent?
Intel staat voor een soortgelijk dilemma, maar dan nog sterker. De eigen Gaudi-lijn van GPU’s heeft niet de vraag opgeleverd die AMD’s beurskoers de afgelopen twee jaar heeft doen stijgen. Bovendien, nu CEO Pat Gelsinger is vertrokken, lijkt het bedrijf stuurloos en niet in staat om door te pakken op AI, terwijl ook de andere marktsegmenten van Intel worden aangevochten. Zonder een voorsprong qua prestaties of de status van grootste uitdager van AMD zijn de kansen op verbetering klein.
Ondertussen zijn de cloudproviders Nvidia’s grootste klanten. Ze willen allemaal van hun afhankelijkheid van de AI-chipreus af door een eigen alternatief te bouwen. Google doet dit al jaren, en haar Tensor Processing Units (TPU’s) zijn een gerespecteerde optie voor wie AI in de cloud wil draaien. Toch kunnen ze nooit universeel zijn als ze alleen via Google Cloud geleverd worden.
Hetzelfde geldt voor AWS’ indrukwekkende Trainium-chips en Inferentia, eveneens alleen beschikbaar via AWS. Ook die zul je niet vinden buiten de datacenters van Amazon. Het is aan Google en AWS (en waarschijnlijk volgt Microsoft) om een ontwikkelaarsstack te bouwen die de architectuur abstraheert. Meestal betekent dat dat een overstap naar Nvidia toch nooit ver weg is. Je kunt immers alleen een groot publiek vangen als dat publiek al geneigd is je te kiezen.
Conclusie: nog geen einde in zicht
Er zijn nog veel meer alternatieven voor Nvidia. We zouden bijvoorbeeld Graphcore kunnen bespreken, waarover we sinds wat onheilspellende berichtgeving in 2023 niets meer hebben gehoord. Of Tenstorrent, dat AI-chips bouwt op de open-source RISC-V-architectuur. De selectie hierboven is slechts een deel van het totale speelveld. Toch denken we dat dit de meest opvallende uitdagers zijn. Er is altijd een kans dat er een verrassende kandidaat opduikt in de hardwaremarkt, zoals DeepSeek dat deed in de AI-modelrace.
We eindigen waar we begonnen. Nvidia heeft een stevige greep op de GenAI-markt, vooral voor training. Ondanks de imposante benchmarks van de genoemde AI-chipstartups hebben we nog niets gezien dat de doorsnee beslisser over AI-infrastructuur zou weerhouden van een aankoop bij Nvidia. Een alternatief zal met indrukwekkende efficiëntie beloften moeten komen, of een alomvattende prestatiewinst.
En zelfs dan laat de koploper niet zomaar los. Nvidia is al druk bezig nieuwe AI-gebieden te veroveren waar het nog niet eerder actief was. Behalve de dominante aanwezigheid in consumentensystemen komt het nu met devkits die volledig op GenAI zijn gericht, onder de naam Project Digits. Jetson Nano is er voor edge-deployments. Geen enkele concurrent, zelfs Nvidia’s naaste rivaal AMD niet, biedt zoveel flexibiliteit. Dat helpt het bedrijf toekomstige stormen te doorstaan, zelfs als het de allrounderstatus van GPU’s ooit moet loslaten voor lijfsbehoud. Welke transitie dan ook moet mogelijk zijn met (grofweg) 3 biljoen aan marktwaarde en al het kapitaal dat daarmee te genereren is.
Lees ook: Nvidia kondigt een AI-supercomputer voor op je bureau aan