Google ondersteunt vanaf nu tot wel 65.000 Kubernetes-nodes om generatieve AI-modellen te trainen. Dat is naar eigen zeggen een tienvoud van wat concurrerende diensten aankunnen.
Naar verluidt bevat GPT-4 van OpenAI 1,8 biljoen parameters, maar met 405 miljard parameters bereikt Llama 3’s grootste variant het hoogste aantal op dit gebied met openlijk beschikbare informatie erover. Het trainen van dergelijke LLM’s kost niet alleen veel tijd en (enorm) veel compute en geld, maar is doorgaans simpelweg niet mogelijk op public cloud instances. Google Cloud lijkt een volgende reuzensprong mogelijk te hebben gemaakt.
Alvast voorbereid
Eerder ondersteunde Google Kubernetes Engine (GKE) al clusters met 15.000 nodes, genoeg voor de LLM’s van vandaag. Maar voor de modellen van morgen ondersteunt Google Cloud alvast 65.000 gekoppelde nodes. Ze draaien niet op GPU’s, zoals wel geldt voor het overgrote merendeel van GenAI-workloads, maar op Google’s eigen TPU’s (v5e), waarvan elke node vier chips bevat. Een enkele cluster kan vanaf nu dus 250.000 acceleratoren bevatten.
Hoe is het mogelijk dat er zoveel TPU’s gezamenlijk optreden? Immers is het koppelen op deze schaal doorgaans enkel met complexe networking mogelijk. De TPU v5e, geïntroduceerd in 2023, ondersteunt “Multislice”, dat nagenoeg lineaire scaling bevat en dus ook 65.000 nodes goed benut. Er was wel meer nodig, zoals het herzien van de gehele GKE-infrastructuur en een nieuwe gedistribueerde database van Google zelf (genaamd Spanner) in plaats van het open-source etcd.
Het nut hiervan zal nog moeten blijken. Modellen blijven zeker groter worden, maar mogelijk is er (eindelijk) een einde in zicht van de lineaire toename die de vaardigheden van LLM’s met steeds meer parameters vertoonden. Zo was GPT-3 vele malen effectiever dan GPT-2, in verhouding tot de 175 miljard parameters van GPT-3 versus de 1,5 miljard van GPT-2.
Meer dan training
Overigens is Google’s nieuwe cluster niet alleen bedoeld voor het trainen van gigantische modellen. Ook hebben onderzoekers simpelweg deze soort cloud-architectuur nodig, meent het bedrijf. “Het centraliseren van rekenkracht binnen het kleinste aantal clusters biedt klanten de flexibiliteit om zich snel aan te passen aan veranderingen in de vraag van inferentieservering, onderzoek en training workloads”, zeggen Drew Bradstock en Maciek Różacki van respectievelijk Google Cloud en GKE.
Lees ook: Google lanceert GKE Enterprise voor eenvoudiger Kubernetes-beheer