Onderliggende infrastructuur cruciaal voor behalen AI-succes

Een man in een grijze trui staat in een gang.
Onderliggende infrastructuur cruciaal voor behalen AI-succes

AI ontwricht bijna elke sector en is het gesprek van de dag. Landen over de hele wereld zijn vastbesloten om koploper te worden op het gebied van AI. Er wordt al flink geïnvesteerd, hyperscalers zullen tegen 2028 naar verwachting 1 biljoen dollar uitgeven aan infrastructuur die is geoptimaliseerd voor AI. De Europese Unie heeft tijdens de AI Action Summit in Parijs InvestAI gelanceerd om €200 miljard vrij te maken voor investeringen in AI. Ook bedrijven zetten in op AI. IDC voorspelt dat Europese bedrijven 144 miljard dollar aan AI zullen uitgeven in 2028. Ondanks de vele investeringen en initiatieven slagen niet alle projecten: volgens Gartner levert bijna een derde van de AI-initiatieven geen zakelijke waarde op.

Het is duidelijk dat de ‘AI-goudkoorts’ niet kan worden genegeerd. Hoe kunnen organisaties de kans op succes bij hun AI-projecten maximaliseren en waar moeten ze rekening mee houden bij de onderliggende infrastructuur?

AI-vereisten rond compute en storage

AI-workloads zijn in twee brede categorieën te verdelen: training, waarbij een model leert van een dataset; en inferentie, als het getrainde model nieuwe data gebruikt om inzichten te genereren. Voordat de training plaatsvindt, wordt echter al een aantal belangrijke stappen gezet, zoals het verzamelen en voorbereiden van data. De aard van deze data kan sterk verschillen, van archiefbestanden tot gestructureerde databases, en gaat vaak gepaard met onvoorspelbare data governance door dit gebrek aan uniformiteit en gedeelde verantwoordelijkheid en eigenaarschap.

Een ding is zeker: AI vereist veel resources. Het is bekend dat GPU’s enorm veel energie verbruiken tijdens het trainen van AI-modellen. Frequente checkpoints, een momentopname van de huidige status van het AI-model, tijdens training verhogen de eisen aan de infrastructuur nog verder. Deze checkpoints zorgen ervoor dat het model kan herstellen, bieden rollback-mogelijkheden en ondersteunen compliance. Als gevolg hiervan neemt de behoefte aan data storage en het bijbehorende energieverbruik nog verder toe.

Een andere techniek die steeds vaker wordt toegepast binnen AI-projecten, is Retrieval Augmented Generation (RAG). Hierbij wordt eerst relevante informatie opgehaald uit een interne database, waarna deze context wordt gebruikt om nauwkeurige en goed onderbouwde antwoorden te genereren met AI. RAG zorgt echter voor nog meer storagecomplexiteit en kan de omvang van de dataset aanzienlijk vergroten, soms wel met een factor 10.

Na de training vereist inferentie over het algemeen minder rekenkracht, maar is er nog steeds voortdurende dataopslag nodig, zowel voor het loggen van resultaten als voor de data zelf die wordt geanalyseerd.

Stroomverbruik, schaal en afwegingen

Het groeiende energieverbruik van AI is een andere belangrijke factor waar organisaties rekening mee moeten houden. Sommige bronnen beweren dat AI-verwerking meer dan 30 keer zoveel energie kost als traditionele, taakgerichte software zoals Word of Excel, en dat de energiebehoefte van datacenters tegen 2030 meer dan verdubbeld zal zijn. Het stroomverbruik van individuele racks is gestegen van minder dan 10 kW naar 100 kW of zelfs meer, grotendeels als gevolg van de energievraag van high-performance GPU’s.

Dit betekent dat er een afweging moet worden gemaakt: elke Watt energie die wordt gebruikt voor data storage is er een die niet kan worden gebruikt door GPU’s. Energiezuinige storage is essentieel om GPU’s snel van data te voorzien en tegelijkertijd de druk op de toch al beperkte stroomvoorziening te minimaliseren. Data storage kan ook extra prestatieverbeteringen opleveren, bijvoorbeeld met caching, waarbij veelgebruikte data, prompts en gesprekken worden gebufferd om repetitieve GPU-verwerking te verminderen. Gebufferde data kunnen de reactiesnelheid verbeteren, zelfs voor veeleisende workloads zoals RAG, trading en chatbots. Over het algemeen kan caching de inferentie tot wel 20 keer versnellen. Zo wordt de efficiëntie van GPU’s gemaximaliseerd, worden de kosten en het energieverbruik verlaagd en komen schaalbare en responsieve enterprise AI-toepassingen een stap dichterbij.

Storage moet bijblijven

De rol van data storage in AI-infrastructuur is het bieden van een hoge doorvoersnelheid en lage latency bij grote datasets. Slechte opslagprestaties kunnen GPU-bottlenecks veroorzaken, die de waarde van dure computerhardware ondermijnen.

AI-workloads vereisen doorgaans honderden terabytes, zo niet petabytes, aan capaciteit en de mogelijkheid om snel data op te halen, of het nu gaat om het trainen van nieuwe modellen, het uitvoeren van inferenties of het integreren van nieuwe databronnen. Dit geldt niet alleen voor realtime behoeften, maar ook voor archiefdata die opnieuw kan worden gebruikt of verwerkt. QLC-flash met hoge dichtheid is uitermate geschikt voor high-performance AI-storagebehoeften vanwege de combinatie van snelheid, capaciteit, betrouwbaarheid en energie-efficiëntie. Met QLC kunnen klanten data opslaan op flash-storage tegen kosten die concurrerend zijn met HDD-opslag, maar deze data ophalen met de snelheid die vereist is voor AI-workloads.

Strategische infrastructuur voor AI-succes

Voor AI op grote schaal is meer nodig dan krachtige GPU’s. Het hangt af van een robuuste, efficiënte en responsieve infrastructuur. Data storage speelt hierin een belangrijke rol. Vanaf de vroegste stadia van datavoorbereiding, via training tot klantgerichte inferentie – AI-workloads zijn afhankelijk van snelle, schaalbare en energiezuinige data storage. Zonder dit soort storage-oplossingen lopen zelfs de best gefinancierde projecten het risico te mislukken door hun eigen complexiteit.

Dit is een ingezonden bijdrage van Pure Storage. Via deze link vind je meer informatie over de mogelijkheden van het bedrijf.