Red Hat AI 3 pakt complexiteit AI-inferencing aan

Red Hat AI 3 pakt complexiteit AI-inferencing aan

Red Hat lanceert een vernieuwde versie van zijn AI-platform. Red Hat AI 3 moet organisaties helpen om AI-workloads efficiënter van proof-of-concept naar productie te krijgen. Het platform richt zich vooral op inference, de uitvoeringsfase van enterprise AI.

Onderzoek van het Massachusetts Institute of Technology laat zien dat ongeveer 95 procent van de organisaties geen meetbaar financieel rendement ziet op de ongeveer 40 miljard dollar (34,4 miljard euro) die wordt gespendeerd aan enterprise AI-applicaties. Voor veel bedrijven blijkt de stap van AI-experimenten naar daadwerkelijke productie een enorme uitdaging.

Red Hat AI 3, waar Red Hat AI Inference Server, RHEL AI en Red Hat OpenShift AI onder vallen, wil deze kloof dichten door een consistente, uniforme ervaring te bieden. “Met Red Hat AI 3 bieden we een enterprise-grade, open source platform dat deze drempels minimaliseert”, zegt Joe Fernandes, vice president en general manager van Red Hat’s AI Business Unit. Het platform bouwt voort op vLLM en llm-d community-projecten.

Tip: Chris Wright: AI heeft model, accelerator en cloudflexibiliteit nodig

Schaalbaarheid en kostenbeheersing

De nadruk ligt op inference-taken, oftewel de uitvoerende fase van AI. Red Hat OpenShift AI 3.0 introduceert llm-d, dat large language models natively op Kubernetes laat draaien. Deze aanpak combineert intelligente gedistribueerde inference met de beproefde waarde van Kubernetes-orkestratie.

Voor het maximaliseren van hardware-accelerators maakt de technologie gebruik van de open source-componenten de Kubernetes Gateway API Inference Extension, Nvidia Dynamo (NIXL) KV Transfer Library en de DeepEP Mixture of Experts-communicatiebibliotheek. Hiermee kunnen organisaties kosten drukken en responstijden verbeteren door slimme model-scheduling en gedisaggregeerde serving.

Het platform biedt bovendien operationele eenvoud met voorgeschreven “Well-lit Paths” die de uitrol van modellen op schaal stroomlijnen. Cross-platform ondersteuning zorgt voor flexibiliteit bij de inzet van LLM-inference op verschillende hardware-accelerators, waaronder Nvidia en AMD.

Platformen voor samenwerking

Red Hat AI 3 levert nieuwe mogelijkheden voor teams die aan generatieve AI-oplossingen werken. Via Model as a Service-functionaliteit, die voortbouwt op gedistribueerde inference, kunnen IT-teams fungeren als hun eigen MaaS-providers door gangbare modellen centraal aan te bieden.

De nieuwe AI hub stelt platformengineers in staat om foundational AI-assets te ontdekken, uit te rollen en te beheren. Het biedt een centrale hub met een gecureerde catalogus van modellen, waaronder gevalideerde en geoptimaliseerde gen AI-modellen.

Voor AI-engineers komt er een Gen AI studio. Dit is een hands-on omgeving om met modellen te interacteren en snel prototypes te bouwen van nieuwe gen AI-applicaties. De ingebouwde playground geeft een interactieve, stateless omgeving om te experimenteren met modellen.

Voorbereid op AI-agents

Red Hat positioneert zich voor de opkomst van AI-agents. Deze autonome workflows zullen zware eisen stellen aan inference-capaciteiten. Het OpenShift AI 3.0-platform legt de basis voor schaalbare agentische AI-systemen.

Het bedrijf introduceert een Unified API-laag gebaseerd op Llama Stack. Deze helpt bij afstemming met industriestandaard, zoals OpenAI-compatibele LLM-interfaceprotocollen. Red Hat omarmt ook het Model Context Protocol (MCP), dat stroomlijnt hoe AI-modellen interacteren met externe tools.

Daarnaast komt er een modulaire en uitbreidbare toolkit voor modelaanpassing, gebouwd op bestaande InstructLab-functionaliteit. Deze biedt gespecialiseerde Python-libraries voor meer flexibiliteit en controle bij ontwikkelaars.

Red Hat AI 3 moet organisaties helpen om AI-initiatieven uit de experimenteerfase te krijgen.