Cerebras-samenwerking geeft AWS Trainium nieuw leven

Als het om AI-workloads gaat, is inferencing verreweg het belangrijkst. Het dagelijks draaien van AI-modellen kan op vele manieren, maar de meest efficiënte wijze is lang uitgebleven. AWS en Cerebras werken samen op een manier die de aard van deze workloads volledig op de schop neemt.

De duidelijke scheiding tussen AI-training en -inferencing is vrij gemakkelijk te maken. Daar waar LLM’s van training gebruikmaken om naar behoren te werken, is inferencing de manier waarop een LLM werkelijk wordt ingezet. Elke output, in welke vorm dan ook, is het gevolg van inferencing. Maar de opsplitsing van AI-workloads gaat verder dan deze tweedeling. Inferencing zelf bestaat ook uit twee elementen bij Transformer-modellen, prefill en decode. AWS en Cerebras verdelen nu ook die twee componenten.

Prefill en decode

AI-training vergt reusachtige rekenkracht en is veelal het eerste waar “AI Factories” voor in het leven geroepen worden. Inferencing is minder veeleisend en kan via de public cloud tegen een behapbaar tarief draaien. Maar AWS is erachter gekomen dat Trainium, oorspronkelijk bedoeld voor de zware training-workloads, uitblinkt op het gebied van prefill. Cerebras, de maker van gigantische ‘wafer-scale’ AI-chips, blijkt te excelleren als het om decode gaat.

Prefill is het verwerken van de input, of dat nu een bericht van een eindgebruiker is tegen een chatbot, een afbeelding of een API-call via MCP vanuit een andere applicatie. Hierbij is rekenkracht de beperkende factor. AWS Trainium, elders omschreven als een ‘ramp’, lijkt ver verwijderd van het prestatieniveau waar de grote AI-labs om vragen. Anthropic, dat de “enige betekenisvolle Trainium-klant” zou zijn, hanteert een multi-cloud strategie. Naast AWS rust het op rekenkracht van Google Cloud en daarmee de TPU’s op dat platform.

AWS Trainium heeft dus een nieuw bestaansrecht nodig. De uitweg lijkt AI-inferencing te zijn. Het is een beetje te zien als een degradatie van de doeleinden, aangezien dit een minder veeleisende workload is en veelal geldt als de soort workload die een voormalige training-chip draait als het niet meer de state-of-the-art prestaties van voorheen biedt.

Cerebras biedt echter iets anders: bandbreedte. 21 petabytes per seconde (!) zou de maximum doorvoer zijn van de meest recente CS-3, uitgerust met 900.000 cores. Een enkele ‘chip’ is in feite een enkele ‘wafer’, die normaliter worden opgeknipt om meerdere processoren te bouwen. De snelheid op petabyte-niveau kan alleen doordat connectiviteit binnen een chip eigenlijk altijd vele malen sneller is dan tussen chips, zoals bij aparte geheugenmodules en een GPU.

Laat dat nu net zijn waar AI-inferencing in de tweede, laatste stap om vraagt. Decode, de stap na prefill, draait om het genereren van tokens en daarmee de output. Dit is het eindresultaat, het antwoord van een chatbot op een vraag, een AI-afbeelding, et cetera.

Optelsom is nieuw idee

Het toverwoord bij de aangekondigde samenwerking tussen AWS en Cerebras is “disaggregation”. Dat is het opsplitsen van prefill en decode. Met die optelsom, voor het eerst in productie beschikbaar, kunnen we gerust zeggen dat er een nieuw tijdperk voor AI-inferencing geopperd wordt.

De techniek zelf is niet uit de lucht gegrepen: in september verscheen onderzoek gericht op het opsplitsen van prefill en decode. Dat was tussen verschillende GPU-vendoren, maar de naamgeving van de AI-chips maakt hierbij niet zoveel uit.

Een andere technische term voor dit fenomeen is heterogene parallelisme, ofwel het draaien van verschillende soorten chips voor dezelfde workload, die tegelijk berekeningen uitvoeren. We vermoeden dat er een wat eenvoudiger te onthouden term voor ontstaat als andere hyperscalers dezelfde methodologie achterna gaan.

Van verlies naar winst

De aankondiging zal zich moeten bewijzen. AWS stelt dat Anthropic en OpenAI gecommitteerd blijven aan Trainium. Dat zal ook te maken hebben met de miljarden aan dollars die AWS investeert in beide partijen.

Nu lijkt AWS echter een nieuw plan te hebben. Trainium 4 zou in 2027 moeten verschijnen, waarbij de inzet opnieuw is om voor AI-training de favoriet te zijn van AI-labs. Maar op termijn, of dat nu kort na release is of later, zal Trainium 4 in de voetsporen treden van Trainium 3 en in een soortgelijke samenwerking met Cerebras-chips benut kunnen worden.

Er zouden zelfs meer AI-processoren in dit paradigma meegaan. Dat gaat verder dan benchmarks en benut de AI-capaciteit die nu uitgebouwd wordt op de lange termijn. AWS en Cerebras hebben wat dat betreft voorgesorteerd op de toekomst.

Lees ook: Nvidia werkt aan chip voor AI-inferencing met Groq-technologie

Lees meer over Devices

Red Hat voorziet Panasonic Toughbook 56 van robuust OS

Tijdens de onthulling van de nieuwste Panasonic Toughbook in Stockholm draait Windows 11 op de display units....

Erik van Klinken 3 dagen geleden

Review

Review ASUS NUC 15 Pro: maakt rekenkracht beschikbaar op onmogelijke plekken

We ontvingen van ASUS een ASUS NUC 15 Pro, een hele kleine mini-pc die voldoende rekenkracht levert voor alle...

Coen van Eenbergen 19 februari 2026

Topartikel

ClickShare combineert MDEP met gebruiksgemak voor videoconferencing

Organisaties zijn ingesteld op videoconferencing, maar volwassen zijn hun oplossingen nog niet altijd. ClickS...

Erik van Klinken 17 februari 2026

AMD geeft zijn embedded chips 80 TOPS aan AI-rekenkracht

AMD breidt zijn Ryzen AI Embedded P100-serie uit met nieuwe processors die tot 12 Zen 5-kernen, 80 systeem-TO...

Erik van Klinken 9 maart 2026

Expert aan het woord

Tech calendar

Cerebras-samenwerking geeft AWS Trainium nieuw leven

Prefill en decode

Optelsom is nieuw idee

Van verlies naar winst

Blijf op de hoogte, abonneer!

Oracle: soevereiniteit is kwestie van vertrouwen, niet alleen techniek

Je vaatwasser wordt niet geleverd: waarom supply chains falen

JFrog: Hoe je problemen met AI-workflows overwint

De ‘RAMpocalypse’ is een waarschuwing voor strengere prestatie-KPI’s

How Ansible becomes the execution layer for agentic AI

SAP's AI workforce strategy: upskilling 100,000 employees

Cisco reimagines network ops with agentic AI

How Cisco's AI Canvas is revolutionizing network troubleshooting

Herzie hoe je data ontsluit, nu je niet meer om AI heen kunt

Hoe slimme, secure en simpele vergadertechnologie het verschil kan maken op de hybride werkplek

Waarom AI engineering noodzakelijk is om AI uit het lab te krijgen

De misinformatie over kwantumbeveiliging speelt cybercriminelen in de kaart

De IT Afdeling van de toekomst

GITEX ASIA 2026

GITEX ASIA 2026

Southeast Asia AI Application Summit 2026

SAS Innovate 2026

Team '26

Platform engineering als versneller van de energietransitie

Het pakketprobleem in de logistiek; van claims naar kostenbesparing

Axis maakt met camerasensors de werkomgeving veiliger en efficiënter