Red Hat legt fundament voor AI-inferencing: Server en llm-d project

Red Hat legt fundament voor AI-inferencing: Server en llm-d project

Op de jaarlijkse Red Hat Summit gaat het dit jaar veel over AI-inferencing. Het open source-bedrijf ziet een grote rol voor zichzelf weggelegd – vergelijkbaar met hoe het Linux belangrijk maakte – in de technologie die het volle potentieel uit artificial intelligence haalt. Met de twee nieuwe initiatieven AI Inference Server en de llm-d community, moeten de middelen klaarstaan om de infrastructuur van bedrijven verder te professionaliseren voor het AI-tijdperk.

AI-inferencing heeft wat Red Hat betreft een zetje in de goede richting nodig. Bedrijven investeren namelijk volop in het trainen van modellen. Ze besteden er veel tijd aan door grote datasets klaar te maken en die als voeding aan het model aan te bieden. Hierdoor is het in staat verbanden te leggen en afwijkingen te identificeren. Maar uiteindelijk moet uit data wel bruikbare output komen.

Bij AI-inferencing doelt men precies daarop: het is de component die AI operationeel maakt. Het model kan hetgeen het heeft geleerd tijdens de training toepassen op situaties in de echte wereld. Het vermogen om patronen te herkennen en conclusies te trekken, onderscheidt AI van andere technologieën. Deze inferencingcapaciteit kan helpen bij alledaagse taken, maar ook bij zeer complexe computerprogrammering. De kracht zit hem in de snelheid en nauwkeurigheid waarmee systemen beslissingen kunnen nemen op basis van grote hoeveelheden data.

Door de complexiteit van generatieve AI-modellen en de toenemende schaal van productie-implementaties wordt AI-inferencing echter een knelpunt voor bedrijven, ziet Red Hat. Inferencing verbruikt enorm veel hardware-resources, waardoor de responsiviteit kan afnemen en de operationele kosten kunnen stijgen. De nieuwe AI Inference Server en de llm-d community moeten die uitdagingen in de kiem smoren.

Democratisering van AI-inferentie

De Red Hat AI Inference Server is ontworpen voor hoge prestaties en beschikt over tools voor modelcompressie en -optimalisatie. Hiervoor vertrouwt Red Hat op twee kerncomponenten. De eerste komt van Neural Magic, een startup die eind vorig jaar werd overgenomen door Red Hat. De technologie van Neural Magic optimaliseert AI-modellen, zodat ze sneller draaien op ‘standaard’ processoren en GPU’s. De Neural Magic-software maakt handig gebruik van de beschikbare memory van de processoren om deze prestaties te realiseren. Hierdoor boeken de AI-workloads vergelijkbare snelheden als gespecialiseerde AI-chips.

Neural Magic speelt ook een rol in de tweede component van de Red Hat AI Inference Server. De startup was voor de overname immers betrokken bij het open source-project vLLM voor model serving, en zal dat ook blijven als commerciële bijdrager. Dit community-project biedt een inference-engine voor LLM’s, perfect als tweede basis voor de server. Neural Magic is nauw betrokken bij model- en systeemoptimalisatie voor verbeterde vLLM-prestaties op schaal. Het verbetert de latency en resource-efficiëntie en levert hoge doorvoersnelheden voor generatieve AI-inferencing. Door geheugenbeheer te optimaliseren bij het genereren van tokens, kunnen modellen efficiënt en snel een fors aantal gebruikers ondersteunen. Er is ondersteuning voor grote invoercontexten, multi-GPU-modelversnelling en continuous batching.

Brede ondersteuning voor AI-modellen

Bij het beschikbaar maken van de nieuwe server worden direct belangrijke generatieve AI-modellen ondersteund. DeepSeek, Gemma, Llama, Llama Nemotron, Mistral en Phi behoren sowieso tot de ondersteunde modellen. Overigens zullen er meer onder dit rijtje vallen, al is het op basis van de informatie die we nu hebben onduidelijk welke dat zijn. De groep bedrijven die generatieve AI-modellen bouwen, omarmt over het algemeen in toenemende mate vLLM. Dat belooft wat voor het succes van het AI-project.

De Red Hat AI Inference Server is beschikbaar als zelfstandige gecontaineriseerde oplossing of als onderdeel van zowel RHEL AI (Red Hat Enterprise Linux AI) als Red Hat OpenShift AI. In elke implementatieomgeving biedt Red Hat AI Inference Server gebruikers een ‘hardened, supported distribution’ van vLLM.

Daarnaast beschikt de server over intelligente LLM-compressietools voor het verkleinen van foundational en fine-tuned modellen. Dit minimaliseert het benodigde rekenvermogen, terwijl de modelnauwkeurigheid behouden blijft en het potentieel wordt vergroot. Daarbovenop komt een geoptimaliseerde modelrepository, gehost in de Red Hat AI-organisatie op Hugging Face, die directe toegang biedt tot een gevalideerde en geoptimaliseerde verzameling AI-modellen. De modellen zijn klaar voor inference-implementatie, wat volgens Red Hat helpt de efficiëntie twee tot vier keer te verhogen zonder de modelnauwkeurigheid in gevaar te brengen. De server biedt tevens third-party support, wat in dit geval betekent dat hij op niet-Red Hat Linux- en Kubernetes-platforms geïmplementeerd kan worden.

Elk model, elke accelerator, elke cloud

Tijdens de keynote op de Red Hat Summit maakt CEO Matt Hicks ook duidelijk hoe de nieuwe server in lijn ligt met de visie van het open source-bedrijf. Het voorziet een toekomst vol AI. Die moet worden gedefinieerd door onbegrensde mogelijkheden, niet beperkt door silo’s in de infrastructuur. Het bedrijf ziet een horizon waar organisaties elk model kunnen implementeren, op elke accelerator en in elke cloudomgeving. Dat moet resulteren in een uitzonderlijke, consistentere gebruikerservaring zonder buitensporige kosten.

Om het volledige potentieel van generatieve AI-investeringen te ontsluiten, hebben bedrijven dus een universeel inferencingplatform nodig. Dit functioneert als standaard voor soepelere, hoogwaardige AI-innovatie, zowel nu als in de komende jaren. Zoals Red Hat pionier was in de open enterprise door Linux om te vormen tot het fundament van moderne IT, wil het bedrijf nu klaar zijn om de toekomst van AI-inferencing vorm te geven.

Red Hat zal daarvoor alles op alles zetten om een bloeiend ecosysteem op te bouwen rond de vLLM-community, zodat dit de definitieve open standaard wordt voor inferencing in de hybrid cloud. Maar, en daar komt het nieuwe open source-initiatief om de hoek kijken, ook via llm-d. Dit project voor gedistribueerde inferencing op schaal ziet tijdens de Red Hat Summit het levenslicht.

Schaalbare inferencing als kritische factor

Het llm-d-initiatief is in samenwerking met CoreWeave, Google Cloud, IBM Research en Nvidia ontstaan. Het wil productiegerichte generatieve AI net zo alomtegenwoordig maken als Linux. Met deze technologie kunnen organisaties AI-modellen efficiënter uitvoeren zonder dat de kosten en latentie de pan uit rijzen.

Red Hat omschrijft llm-d nu vooral als een visionair project dat de groeiende resource-eisen verder kan aanpakken. Het is bedoeld om de kracht van vLLM uit te breiden en de beperkingen van single-serveroplossingen te doorbreken. Het maakt hiervoor gebruik van de orkestratiemogelijkheden van Kubernetes om de llm-d-inferencingcapaciteiten in bestaande IT-infrastructuren te implementeren. Dit geeft IT-teams de middelen om aan uiteenlopende eisen van bedrijfskritische workloads te voldoen. Tegelijkertijd moeten de TCO-kosten van high-performance AI-accelerators drastisch omlaag.

Tekst gaat verder na onderstaand kader

Technische mogelijkheden

Het llm-d-project biedt technisch gezien zes interessante opties. Hieronder zetten we ze op een rijtje.

High-performance communicatie-API’s voor snellere en efficiëntere dataoverdracht tussen servers, met ondersteuning voor Nvidia Inference Xfer Library (NIXL).

vLLM, dat de de facto standaard inferentieserver in open source is geworden, met ondersteuning voor de nieuwste frontier-modellen en een breed scala aan accelerators, inclusief Google Cloud Tensor Processing Units (TPU’s).

Prefill and Decode Disaggregation, wat de invoercontext- en tokengeneratiefasen van AI in afzonderlijke operaties verdeelt, zodat ze over meerdere servers kunnen worden gedistribueerd.

KV (key-value) Cache Offloading, gebaseerd op LMCache, verschuift de geheugenbelasting van de KV-cache van GPU-geheugen naar kostenefficiëntere en ruimer beschikbare standaardopslag, zoals CPU-geheugen of netwerkopslag.

Kubernetes-gestuurde clusters en controllers voor efficiëntere planning van compute- en storage-resources bij wisselende workloads, met behoud van prestaties en lagere latentie.

AI-Aware Network Routing voor het doorsturen van inkomende verzoeken naar servers en accelerators die het meest waarschijnlijk hot caches van eerdere inferentieberekeningen hebben.

Ondersteuning vanuit de industrie

De bedrijven die we hierboven al even noemden – CoreWeave, Google Cloud, IBM Research en Nvidia – zijn founding contributors. Daarnaast sluiten AMD, Cisco, Intel, Lambda en Mistral AI aan als partners. De llm-d community wordt verder ondersteund door het Sky Computing Lab van de Universiteit van Californië, makers van vLLM, en het LMCache Lab aan de Universiteit van Chicago, makers van LMCache.

“De lancering van de llm-d community, ondersteund door een voorhoede van AI-leiders, markeert een cruciaal moment in het aanpakken van de behoefte aan schaalbare generatieve AI-inferencing, een belangrijke hindernis die moet worden overwonnen om bredere adoptie van AI in bedrijven mogelijk te maken”, legt Red Hat-AI CTO Brian Stevens uit bij de lancering. “Door gebruik te maken van de innovatie van vLLM en de bewezen mogelijkheden van Kubernetes, effent llm-d de weg voor gedistribueerde, schaalbare en hoogwaardige AI-inferentie in de uitgebreide hybride cloud, met ondersteuning voor elk model, elke accelerator, in elke cloudomgeving, en helpt het een visie van grenzeloos AI-potentieel te realiseren.”

Tip: Red Hat fungeert als motor voor open enterprise AI