Red Hat past zijn platformstrategie aan voor de veranderende enterprise AI-markt. Het exploderende tokenverbruik door AI-agents eist meer controle over de infrastructuur. De open source ‘metal-to-agent’-benadering is het antwoord op de huidige behoeften in de markt. We spraken CTO Chris Wright over deze visie en flexibiliteit.
De markt voor AI bevindt zich in een opmerkelijke paradox. Aan de ene kant dalen de prijzen van AI-tokens per eenheid spectaculair, waarbij de kosten voor het genereren of verwerken van data via LLM’s op jaarbasis met 75 tot 90 procent afnemen. Dit maakt de technologie fundamenteel toegankelijker dan voorheen. Aan de andere kant stijgt het volume van het tokenverbruik binnen enterprise-omgevingen met meer dan 500 procent per jaar. Deze explosieve volumegroei neutraliseert niet alleen de prijsdalingen, maar creëert ook een acute en groeiende noodzaak voor een efficiëntere infrastructuur.
De opkomst van geavanceerde reasoningmodellen heeft vooral tot extra tokenverbruik geleid. Het gaat om een factor 10 tot 20 aan extra tokenverbruik in vergelijking met standaardmodellen, omdat deze systemen intern complexe afwegingen en ketens van logica genereren voordat ze een antwoord formuleren. Wanneer organisaties de stap maken naar autonome AI-agents die continu bedrijfstaken monitoren, plannen en uitvoeren, stijgt dat verbruik nog eens met een factor vijf. Dit verklaart waarom de huidige benadering van enterprise AI, waarbij primair via externe API’s wordt verwezen naar propriëtaire frontier-modellen, op de lange termijn financieel en operationeel onhoudbaar wordt. “Om succesvol te zijn in de token-economie, moet je de overstap maken van louter token-gebruiker naar daadwerkelijk token-aanbieder”, schetst Wright.
Volgens Wright zullen organisaties die hun eigen AI-infrastructuur bezitten en zelfgehoste modellen draaien als de uiteindelijke winnaars uit deze transitie naar voren komen. Echte flexibiliteit ontstaat wanneer een bedrijf de volledige controle heeft over welk model voor welke specifieke taak wordt ingezet, zonder de nadelen van een vendor lock-in en zonder onvoorspelbare variabele kosten. Dit vereist een fundamenteel ander technologisch fundament in de vorm van een platform dat de kloof overbrugt tussen de ruwe rekenkracht van de hardware en de abstracte logica van autonome AI-agents.
Enterprise AI via gecombineerd aanbod
Het antwoord van Red Hat op deze uitdaging is Red Hat AI Enterprise, een geïntegreerd platform dat intern wordt omschreven als een ‘metal-to-agent’-stack. “Metal-to-agent betekent van het laagste hardwareniveau van de stack tot aan de agent zelf: alle software, het infrastructuurniveau, de inferencing services, de model services en de agent services”, legt Wright uit. Red Hat AI Enterprise moet dan ook de keten van hardwareleveranciers, modelontwikkelaars en applicatiebouwers samenbrengen in één open source-architectuur.
Om de opbouw van het portfolio goed te begrijpen, is het essentieel om onderscheid te maken tussen de kernproducten. Aan de ene kant is er het losstaande product Red Hat AI Inference, dat specifiek is ontworpen voor het efficiënt draaien van modellen als containers en flexibel inzetbaar is op uiteenlopende Kubernetes- of Linux-omgevingen. Aan de andere kant staat het bredere Red Hat AI Enterprise. Dit platform omvat exact hetzelfde inferencing-fundament, maar voegt daar cruciale enterprise-functionaliteiten aan toe. “Het gaat dan ook om guardrails, security, red teaming, de Models-as-a-Service-mogelijkheden en AgentOps. Dat alles komt samen in AI Enterprise, dus het is een breder aanbod”, aldus Wright.
De totale stack is opgebouwd uit vijf nauw verbonden lagen die naadloos in elkaar overgaan. Deze gelaagde aanpak zetten we hieronder uiteen.
De onderste lagen
Aan de basis van deze gelaagde architectuur ligt Red Hat Enterprise Linux als uiterst stabiel besturingssysteem, dat direct is gekoppeld aan Red Hat OpenShift als het overkoepelende Kubernetes-platform. Binnen deze infrastructuurlaag pakt Red Hat een aantal hardnekkige operationele knelpunten aan. Door middel van strikte netwerkisolatie kan exact worden gedefinieerd welke systemen en databronnen een specifieke AI-component mag bereiken. Tegelijkertijd zorgt geavanceerde GPU-sharing ervoor dat de kostbare hardware optimaal wordt benut. In plaats van dat een dure videokaart ongebruikt wacht op een specifieke taak, deelt OpenShift de beschikbare rekenkracht automatisch en dynamisch op basis van de actuele calls.
In de inferencinglaag is voor Red Hat vooral het vLLM-project cruciaal als grootste open source-bijdrager. Dit project is in relatief korte tijd uitgegroeid tot de absolute industriestandaard voor het implementeren, beheren en onderhouden van LLM’s. Omdat vrijwel elke grote nieuwe modelupdate op de markt al op de dag van lancering wordt geoptimaliseerd voor vLLM, zijn organisaties verzekerd van onmiddellijke compatibiliteit met de nieuwste technologieën. Bovenop dit fundament heeft Red Hat het gedistribueerde inferencing-framework llm-d ontwikkeld. Deze orkestratielaag analyseert binnenkomende query’s en routeert deze optimaal over de beschikbare servers. In slechts een jaar tijd hebben de optimalisaties binnen dit framework gezorgd voor een driemaal hogere token-doorvoer en een tien keer zo snelle reactietijd tussen het stellen van een vraag en het genereren van het eerste antwoord. Bovendien stabiliseert deze laag de responstijden, wat van belang is voor onlinediensten die binnen strikte service level objectives moeten functioneren.
Model services en de AI-gateway
Wanneer de onderliggende inferencinglaag solide staat, verschuift de uitdaging naar het veilig en efficiënt intern ontsluiten van de AI-modellen. Red Hat AI Enterprise centraliseert dit complexe proces via Model-as-a-Service (MaaS). Hierdoor worden AI-modellen gedeelde resources via API-endpoints. MaaS beschikt over een AI-gateway. Dat is een component die fungeert als één overkoepelend controlepaneel voor alle modelinteracties binnen de organisatie. Via deze gateway kunnen IT-beheerders gedetailleerd tokenquota’s instellen, specifieke toegangsrechten per team beheren en prioriteiten toewijzen aan bedrijfskritische applicaties. Hiermee wordt effectief voorkomen dat een klein, experimenteel project per ongeluk alle beschikbare GPU-capaciteit opslokt en zo de reguliere bedrijfsvoering in gevaar brengt.
In het verlengde hiervan heeft Red Hat ook een validated models-programma, dat de meest relevante en stabiele open-weight en open source-gelicentieerde modellen valideert. Voorbeelden van modellen die het programma doorliepen zijn IBM Granite en Mistral. Alle modellen zijn door de engineers van Red Hat grondig gevalideerd en geoptimaliseerd voor maximale snelheid en efficiëntie op de ondersteunde enterprise-infrastructuur. Aan deze modellen zijn dataservices gekoppeld voor het toepassen van technieken als het verrijken van AI-antwoorden via externe bedrijfsdata en het gericht afstellen van modellen voor zeer specifieke interne workflows.
Van modellen naar autonome AI-agents
De top van de metal-to-agent-stack wordt ingenomen door de agentservices. AI-agents vormen inmiddels de onbetwiste kern van moderne enterprise AI-strategieën en hebben het louter experimentele stadium ver achter zich gelaten. “We naderen in rap tempo het punt waarop het voor grote bedrijven volstrekt normaal is om duizenden of zelfs tienduizenden specifieke agents simultaan te laten draaien om hun processen te optimaliseren”, stelt Wright. Deze schaalvergroting brengt op zijn beurt operationele en strategische uitdagingen met zich mee. Ten eerste is er een exponentiële stijging van de benodigde rekenkracht, aangezien deze agents in continue lussen redeneren, externe systemen bevragen en acties plannen. Ten tweede is er het gevaar van een wildgroei aan tools en frameworks die door verschillende afdelingen worden binnengehaald, ook wel agent sprawl genoemd.
De filosofie van Red Hat is in dit opzicht ‘bring your own agents’, maar wel onder de strikte voorwaarde dat dit centraal wordt gefaciliteerd en gemonitord door AgentOps. Deze beheerlaag stelt organisaties in staat om de chaos van experimentele wildgroei om te zetten in een veilig en uiterst beheersbaar model. Elke agent krijgt binnen dit systeem een geverifieerde digitale identiteit, kan nauwkeurig worden voorzien van versiebeheer en wordt onderworpen aan geautomatiseerde securitytests om potentiële risico’s proactief af te vangen. Om te garanderen dat IT-teams altijd volledige zichtbaarheid hebben over de processen, leunt het platform sterk op de open standaard OpenTelemetry. Hierdoor lopen de datastromen voor logging en tracing volledig ononderbroken door de gehele keten, vanaf het hardwareniveau tot aan de uiteindelijke en zichtbare acties van de autonome agent.
De AI Factory
Red Hat houdt vast aan een strikt hardware-agnostische benadering, met zijn ‘any accelerator’-filosofie. Het platform ondersteunt dan ook de accelerators van grote partijen als Nvidia, AMD en Intel. Wel wordt er bewust voor extra samenwerkingen met deze partijen gekozen. Vooral Nvidia springt er momenteel uit als marktleider, waar zelfs de nieuwste AI Factory op is gebaseerd. “Ons platform blijft als fundament hardware-agnostisch,” legt Wright uit. Maar wanneer er een gezamenlijke stack met Nvidia verschijnt, de accelerator waar veel bedrijven de voorkeur aan geven, dan draait het uiteraard op die hardware. Nvidia brengt hierbinnen de Nvidia Inference Microservices, ofwel NIM’s, in. Elke NIM bevat een inference-engine, een model en een API voor toegang. Dat kunnen LLM’s zijn, maar ook computer vision-modellen. De AI Factory dekt alle vijf lagen van de metal-to-agent-aanpak.
Hierbij wordt tevens gezorgd voor native ondersteuning voor de nieuwste Nvidia Blackwell-GPU’s. Als logische en veilige aanvulling hierop fungeert Red Hat als vertrouwde uitvoeringslaag van de stack. Dit zorgt ervoor dat de complexe beslissingen en acties die door de autonome AI-agents worden geïnitieerd, direct en op een cryptografisch veilige manier geautomatiseerd kunnen worden doorgevoerd op de onderliggende IT-infrastructuur.
Agentic AI in productie
Voor organisaties die daadwerkelijk AI grootschalig in productie willen draaien, identificeert Wright uitdagingen die overwonnen moeten worden. De allereerste stap is het definiëren van de beoogde use case. “Bij het bouwen van een agent die iets nuttigs doet voor het bedrijf, moet je goed nadenken over je use case. Het identificeren van een use case zal de datavereisten bepalen. Het is belangrijk om betrouwbaar toegang te hebben tot die data en een manier te hebben om die data veilig te integreren in je agentic workflow”, ziet Wright.
Bij het in kaart brengen van de datavereisten moet het duidelijk zijn welke bestaande systemen moeten worden gekoppeld om essentiële context aan de AI-agent te voeden. Denk aan een oud ERP-systeem waar behoorlijk wat bedrijfsinformatie in staat. Hoe kan die gevoelige bedrijfsdata veilig worden geïntegreerd in de agentic workflow? “Net als bij applicatieontwikkeling kun je snel iets bouwen op je laptop, maar je gaat het implementeren in een productieomgeving met securitymaatregelen, observability-mogelijkheden en schaalbaarheid. Een van de uitdagingen is dan ook om van een eenvoudige ontwikkelomgeving naar een productieomgeving te komen”, schetst Wright.
Versnelling van open source
De absolute noodzaak voor een flexibele en open AI-infrastructuur wordt volgens de CTO van Red Hat extra onderstreept door de extreme snelheid waarmee open source-alternatieven zich momenteel wereldwijd ontwikkelen. De kloof tussen zware propriëtaire modellen en gelijkwaardige open source-alternatieven krimpt in een razend tempo. Waar het destijds nog acht lange maanden duurde voordat het open Llama 2-model van Meta het niveau van de allereerste ChatGPT-modellen wist te benaderen, volgde het model DeepSeek-R1 al binnen een krappe vijf maanden na de lancering van OpenAI-o1. De gemene deler is dat open iedere keer sneller antwoordt dan voorheen.
Deze versnelling maakt een enterprise AI-strategie die is gebaseerd op een langdurige vendor lock-in bij één specifieke aanbieder te risicovol. De AI-markt beweegt immers vele malen sneller dan de gemiddelde, stroperige contractcycli van grote bedrijven. Alleen door te kiezen voor een open en breed gelaagd platform kunnen organisaties zich daadwerkelijk wapenen voor de technologische toekomst.
Tip: Chris Wright: AI heeft model, accelerator en cloudflexibiliteit nodig