2min

Het merendeel van de AI-capaciteit bij grote cloudproviders blijft onbenut. Daardoor zouden AWS, Microsoft en Google miljarden mislopen, meent TechInsights-analist Owen Rogers. Het is maar de vraag of het volledig benutten van AI-hardware wel mogelijk is.

TechInsights schat in dat AWS met zeven miljoen GPU-uren ongeveer 5,8 miljard dollar heeft omgezet in 2023. Als de volledige capaciteit van AI-hardware werd benut, zou AWS daarmee de helft van de eigen jaaromzet realiseren, stelt Rogers. Dat zou neerkomen op 40 miljard dollar. Daarbij wordt ervan uitgegaan dat elke accelerator van AWS in een cluster van 20.000 units in elke regio aanwezig is.

Volgens Rogers dient deze hardware meer benut te worden om de moeite waard te zijn. Een klein gedeelte van de GPU’s zal door respectievelijk AWS, Microsoft en Google zelf gebruikt worden. Dat verklaart echter niet waarom er zoveel capaciteit ongebruikt blijft.

GPU-consumptie werkt anders dan bij CPU’s

De oorzaak voor het niet benutten van de theoretische capaciteit is volgens Rogers bij cloudconsumptie te vinden. Klanten maken veelal tegelijkertijd massaal gebruik van AI-hardware, waardoor de hyperscalers capaciteit moeten bieden voor piekmomenten.

Echter wordt elders al het punt gemaakt dat er meer aan de hand is. GPU’s ontlenen zich niet aan het opsplitsen van resources zoals vCPU’s dat doen. Ze worden doorgaans via een VM gedraaid, zoals The Register opmerkt.

Ook is bekend dat AI-workloads sterk van elkaar verschillen. Hyperscalers willen state-of-the-art prestaties kunnen leveren voor enterprise-klanten die snel hun eigen AI-modellen op bedrijfsdata willent trainen. Hoewel dit proces duizenden GPU’s kost en tientallen dagen duurt, komt dit idealiter niet al te vaak voor. Nadat het trainingsproces voltooid is, volgen de vele malen minder veeleisende fine-tuning- en inference-workloads.

Die laatste stap, inferencing, is uiteindelijk de workload die AI-modellen het meest zullen uitvoeren. Hoewel een chip als de H100 daarin een stuk sneller is dan alternatieve opties, is de beschikbaarheid een struikelblok. Wegens de pieken en dalen in AI-gebruik zijn de krachtigste chips simpelweg niet altijd beschikbaar, waardoor AWS en Google Cloud bijvoorbeeld ‘scheduling services‘ hebben opgestart. Rogers wijst naar dit feit om te benadrukken dat de piekbelasting op AI-hardware voor de noodzakelijke overprovisioning zorgt.

Abstractie

Volgens Rogers is er een manier om al deze AI-resources daadwerkelijk te benutten. Volgens hem is het zaak om abstractielagen voor AI-ontwikkeling te adopteren, zoals Amazon SageMaker. Daarbij gaan ontwikkelaars niet aan de slag met GPU’s zelf, maar wordt het bouwen van LLM’s software-matig. Een partij als AWS zal dan bepalen welke hardware voor de taak beschikbaar is, zodat anders onbenutte resources ingezet kunnen worden.

Daar waar een enkele H100-GPU 98,32 dollar per uur zou kosten bij AWS UltraScale-clusters, is de langzamere voorganger, de A100, bij dezelfde cloudprovider 40,96 dollar per uur per GPU. Dat klinkt aantrekkelijk, maar voor inferencing-taken is de H100 wel dertig keer sneller dan de A100. De keuze lijkt dus snel gemaakt.

Lees ook: Nvidia ziet Huawei als serieuze concurrent voor AI-chips