Hoe datacenters de reuzensprong naar 1 Megawatt per rack maken

Hoe datacenters de reuzensprong naar 1 Megawatt per rack maken

De elektrische honger van datacenters is nauwelijks te stillen. Een enkele serverrack zal in de nabije toekomst tot wel 1.000 kilowatt, ofwel 1 Megawatt vereisen. Waarom zijn dergelijke racks nodig en waar zullen ze toe in staat zijn?

Datacenters vragen weliswaar om veel elektriciteit, maar een gedeelte van die vraag baseert zich op inefficiëntie. De grote spelers in de wereldwijde IT-infrastructuur hebben hun zinnen daarom gezet op een gestroomlijnde energietoevoer naar serverracks, met aanzienlijk minder transformaties tussen AC en DC en hogere voltages binnen datacenters zelf. Dit alles was ooit onpraktisch; IT-apparatuur vergt kleine voltages en is van oudsher gericht op zuinigheid. Dat verandert door AI: de schaal van elke serverrack vergroot, met hogere wattages aan verbruik tot gevolg.

De noodzaak voor deze schaalvergroting ligt in de aard van AI-berekeningen. Zowel het trainen als het draaien van AI-modellen is sterk geparalleliseerd, ofwel afhankelijk van talloze kleine berekeningen die gelijktijdig uit te voeren zijn. Daar blinken GPU’s in uit ten opzichte van CPU’s, maar wel met een veel hoger verbruik per rack tot gevolg.

Nvidia is aanvoerder, maar lang niet alleen

Op de roadmap van AI-chipbouwer Nvidia is de stijgende lijn aan deze power density het duidelijkst te zien. Daar waar de A100-GPU’s uit 2022 nog tot de 25 kilowatt per rack reikten, heeft de meest recente Blackwell-generatie aan AI-chips dit al verhoogt tot 132 kilowatt per rack. Daarbij zijn er 72 GPU’s in een enkel Nvidia-systeem geïntegreerd, maar Nvidia-klanten plaatsen dergelijke systemen doorgaans in grote hoeveelheden bij elkaar. Een gehele datacenter-architectuur gaat dus uit van die 132 kilowatt per rack verspreid over een grote ruimte. Dit dwingt IT-architecten veelal tot liquid cooling om dergelijke wattages op efficiënte wijze te beheersen.

De rek is alleen bij lange na niet uit het rack: Blackwell Ultra zal later dit jaar tot wel 150 kilowatt per rack vereisen, waarna de Rubin- en Feynman-generaties van Nvidia-chips de wattages per rack stapsgewijs verhogen tot 1 Megawatt. Dit zal vermoedelijk pas in 2028 een realiteit zijn, maar dat jaar is slechts 26 maanden van ons verwijderd. Let wel: dit zijn de maximale wattages, veel configuraties vallen veel lager uit. Toch zijn de AI-hyperscalers erop gebrand hun capaciteit te maximaliseren en dus ook hun rekenvermogen per rack.

Nvidia is toonaangevend als het om het verhogen van rekenkracht per rack gaat, maar het is absoluut niet de enige partij die over 1 Megawatt per rack praat. “AI-infrastructuur is hot,” stelde Google al in april van dit jaar. Voorstellen om 1 MW te huisvesten, en de daarbij passende voltages te bepalen, zijn er vanuit meerdere partijen, zo ook Google destijds. Het OCP (Open Compute Project) is uit op standaarden voor datacenters (waaronder de klassieke rack en de 1U-meeteenheid), en Google presenteerde onder die noemer nieuwe voorstellen voor standaardisering. Naast Google zijn Meta en Microsoft voorbeelden van techreuzen die gestandaardiseerde elektrische en mechanische interfaces wensen te zien. Dat doen ze niet uit altruïsme, maar vanuit een praktische overweging. Als elke AI-speler een eigen standaard bedenkt voor feitelijk dezelfde elektrische vereisten als de concurrentie, wordt er onnodig dubbel werk gedaan en gaat er geld in rook op dat ook naar de werkelijke AI-hardware had kunnen gaan. Vandaar de roep naar standaarden op dit gebied en de grote kans van slagen hiervan.

400 VDC, 800 VDC

In april introduceerde Google 400 VDC (Volts Direct Current), een voltage dat 1 MW per rack in theorie kan ondersteunen. Het voordeel van 400 VDC is dat elektrische voertuigen dit al gebruikt, dus van adoptie is al sprake. Tevens vereenvoudigt de stap naar 400 VDC de overstap van elektriciteit uit het hoogspanningsnet naar datacenters: momenteel zitten daar meer conversies dan nodig in tussen AC en DC. Allereerst wil Google de efficiëntie van deze conversies met 3 procentpunt verbeteren, maar op den duur moeten de hogere voltages aan gelijkstroom dichterbij de racks komen met nog minder conversies. Die initiële verbetering moet mogelijk zijn dankzij zogeheten ‘sidecars’. Dit zijn stukken elektrische infrastructuur die fysiek naast serverracks belanden en het vereiste vermogen en de vereiste koeling leveren aan de AI-compute. Ze zijn dus, zoals de naam suggereert, randapparatuur voor de AI-infrastructuur waar de prestaties van afhankelijk zijn.

Nvidia is zoals gebruikelijk vooruitstrevend op dit gebied. Het sprak afgelopen week al over 800 VDC. Overigens is dit ook een standaard voor nieuwere EV-platformen. “Meer dan 150 procent aan extra vermogen wordt verplaatst via hetzelfde koper met 800VDC [ten opzichte van traditionele systemen, red.], wat de noodzaak voor koperen spanningsrails van 200 kilogram wegneemt om een enkele rack te voeden.” Daarnaast wil het bedrijf met Vera Rubin, de opvolger van de eigen Blackwell-chips, de koelingsvereisten versoepelen. Tot wel 45 graden Celsius moet acceptabel zijn als inlet-temperatuur voor liquid cooling, aanzienlijk hoger dan de 32 graden Celsius die tegenwoordig gemeengoed is voor GPU’s.

Conclusie: meer vermogen, minder ruimte

Het is duidelijk dat een enkel datacenter in de toekomst meer vermogen dan ooit zal leveren. GPU’s zijn de AI-veelvraten die om een totale herziening van de IT-infrastructuur vragen, van de elektriciteitsvoorziening tot de koeltechnieken. Maar dit levert ook kansen op, zo blijkt. De schaalvergroting naar 1 Megawatt per rack leidt tot de logische conclusie dat hogere voltages dichterbij de rekenkracht gewenst zijn. Het leidt tot een zekere vereenvoudiging van de IT-infrastructuur, maar ook de groeipijn die gepaard gaat met het afwijken van oude standaarden. Het voordeel voor alle AI-spelers is dat zij gezamenlijk optrekken voor een nieuwe standaardisering op grote schaal. Dit gebeurt nog voordat die 1 Megawatt per rack werkelijk realiteit wordt.

Lees ook: Nvidia en TSMC starten productie van Blackwell-chips