4min Devices

Cerebras-samenwerking geeft AWS Trainium nieuw leven

Cerebras-samenwerking geeft AWS Trainium nieuw leven

Als het om AI-workloads gaat, is inferencing verreweg het belangrijkst. Het dagelijks draaien van AI-modellen kan op vele manieren, maar de meest efficiënte wijze is lang uitgebleven. AWS en Cerebras werken samen op een manier die de aard van deze workloads volledig op de schop neemt.

De duidelijke scheiding tussen AI-training en -inferencing is vrij gemakkelijk te maken. Daar waar LLM’s van training gebruikmaken om naar behoren te werken, is inferencing de manier waarop een LLM werkelijk wordt ingezet. Elke output, in welke vorm dan ook, is het gevolg van inferencing. Maar de opsplitsing van AI-workloads gaat verder dan deze tweedeling. Inferencing zelf bestaat ook uit twee elementen bij Transformer-modellen, prefill en decode. AWS en Cerebras verdelen nu ook die twee componenten.

Prefill en decode

AI-training vergt reusachtige rekenkracht en is veelal het eerste waar “AI Factories” voor in het leven geroepen worden. Inferencing is minder veeleisend en kan via de public cloud tegen een behapbaar tarief draaien. Maar AWS is erachter gekomen dat Trainium, oorspronkelijk bedoeld voor de zware training-workloads, uitblinkt op het gebied van prefill. Cerebras, de maker van gigantische ‘wafer-scale’ AI-chips, blijkt te excelleren als het om decode gaat.

Prefill is het verwerken van de input, of dat nu een bericht van een eindgebruiker is tegen een chatbot, een afbeelding of een API-call via MCP vanuit een andere applicatie. Hierbij is rekenkracht de beperkende factor. AWS Trainium, elders omschreven als een ‘ramp’, lijkt ver verwijderd van het prestatieniveau waar de grote AI-labs om vragen. Anthropic, dat de “enige betekenisvolle Trainium-klant” zou zijn, hanteert een multi-cloud strategie. Naast AWS rust het op rekenkracht van Google Cloud en daarmee de TPU’s op dat platform.

AWS Trainium heeft dus een nieuw bestaansrecht nodig. De uitweg lijkt AI-inferencing te zijn. Het is een beetje te zien als een degradatie van de doeleinden, aangezien dit een minder veeleisende workload is en veelal geldt als de soort workload die een voormalige training-chip draait als het niet meer de state-of-the-art prestaties van voorheen biedt.

Cerebras biedt echter iets anders: bandbreedte. 21 petabytes per seconde (!) zou de maximum doorvoer zijn van de meest recente CS-3, uitgerust met 900.000 cores. Een enkele ‘chip’ is in feite een enkele ‘wafer’, die normaliter worden opgeknipt om meerdere processoren te bouwen. De snelheid op petabyte-niveau kan alleen doordat connectiviteit binnen een chip eigenlijk altijd vele malen sneller is dan tussen chips, zoals bij aparte geheugenmodules en een GPU.

Laat dat nu net zijn waar AI-inferencing in de tweede, laatste stap om vraagt. Decode, de stap na prefill, draait om het genereren van tokens en daarmee de output. Dit is het eindresultaat, het antwoord van een chatbot op een vraag, een AI-afbeelding, et cetera.

Optelsom is nieuw idee

Het toverwoord bij de aangekondigde samenwerking tussen AWS en Cerebras is “disaggregation”. Dat is het opsplitsen van prefill en decode. Met die optelsom, voor het eerst in productie beschikbaar, kunnen we gerust zeggen dat er een nieuw tijdperk voor AI-inferencing geopperd wordt.

De techniek zelf is niet uit de lucht gegrepen: in september verscheen onderzoek gericht op het opsplitsen van prefill en decode. Dat was tussen verschillende GPU-vendoren, maar de naamgeving van de AI-chips maakt hierbij niet zoveel uit.

Een andere technische term voor dit fenomeen is heterogene parallelisme, ofwel het draaien van verschillende soorten chips voor dezelfde workload, die tegelijk berekeningen uitvoeren. We vermoeden dat er een wat eenvoudiger te onthouden term voor ontstaat als andere hyperscalers dezelfde methodologie achterna gaan.

Van verlies naar winst

De aankondiging zal zich moeten bewijzen. AWS stelt dat Anthropic en OpenAI gecommitteerd blijven aan Trainium. Dat zal ook te maken hebben met de miljarden aan dollars die AWS investeert in beide partijen.

Nu lijkt AWS echter een nieuw plan te hebben. Trainium 4 zou in 2027 moeten verschijnen, waarbij de inzet opnieuw is om voor AI-training de favoriet te zijn van AI-labs. Maar op termijn, of dat nu kort na release is of later, zal Trainium 4 in de voetsporen treden van Trainium 3 en in een soortgelijke samenwerking met Cerebras-chips benut kunnen worden.

Er zouden zelfs meer AI-processoren in dit paradigma meegaan. Dat gaat verder dan benchmarks en benut de AI-capaciteit die nu uitgebouwd wordt op de lange termijn. AWS en Cerebras hebben wat dat betreft voorgesorteerd op de toekomst.

Lees ook: Nvidia werkt aan chip voor AI-inferencing met Groq-technologie