llm-d sluit zich aan bij CNCF

llm-d is officieel opgenomen als CNCF Sandbox-project. Daarmee staat het project onder beheer van de Linux Foundation en biedt het een open standaard voor AI-inferencing op elke accelerator en in elke cloudomgeving.

De Cloud Native Computing Foundation (CNCF) heeft llm-d opgenomen als officieel Sandbox-project. Daarmee landt het distributed inference-framework onder het beheer van de Linux Foundation, wat organisaties de zekerheid geeft te bouwen op een neutrale, open standaard. llm-d werd in mei 2025 gelanceerd als gezamenlijk initiatief van Red Hat, Google Cloud, IBM Research, CoreWeave en Nvidia, met één heldere visie: elk model, elke accelerator, elke cloud.

Sindsdien sloten AMD, Cisco, Hugging Face, Intel, Lambda en Mistral AI aan als partners. Ook de universiteiten van Californië (Berkeley) en Chicago, bekende namen in de vLLM- en LMCache-wereld, ondersteunen het project. Met de CNCF-opname krijgt llm-d nu de governance-structuur en het open bestuur die bedrijven nodig hebben om er serieus op te bouwen.

Kubernetes-native inferencing als eerste klas workload

Het project richt zich op een concreet knelpunt: AI-serving is stateful en latency-gevoelig, terwijl traditionele service routing en autoscaling daar volledig blind voor zijn. Dat leidt tot inefficiënte plaatsing, cache-fragmentatie en onvoorspelbare latentie. llm-d pakt dit aan door als primaire implementatie van de Kubernetes Gateway API Inference Extension (GAIE) te fungeren, met inference-bewuste traffic management via de Endpoint Picker (EPP).

Daarnaast biedt het framework Prefill/Decode Disaggregation. De verwerking van prompts en het genereren van tokens worden opgesplitst in afzonderlijk schaalbare pods. Hierarchische KV cache offloading verdeelt geheugenbelasting over GPU, CPU en storage. Uit de recentste v0.5-release blijkt dat llm-d bij een multi-tenant SaaS-scenario bijna nul latentie behoudt en opschaalt naar circa 120.000 tokens per seconde.

Vendor lock-in voorkomen is een kernprincipe. Via model- en state-aware routing policies stuurt llm-d requests naar de meest geschikte hardware van Nvidia, AMD of Google, wat verbeteringen oplevert in metrics als Time to First Token (TTFT) en token throughput. Het project wil ook de maatstaf worden voor open, reproduceerbare inferentie-benchmarks.

Lees meer over Infrastructure

Expert aan het woord

Tech calendar

llm-d sluit zich aan bij CNCF

Kubernetes-native inferencing als eerste klas workload

Blijf op de hoogte, abonneer!

Hoe Lucid Software business agility mogelijk wil maken

Oracle brengt Java 26 uit: AI, security en Java Verified Portfolio

Kan vibe coding bij de tijd blijven in de toekomst?

Je vaatwasser wordt niet geleverd: waarom supply chains falen

How Capgemini transformed HR for 400,000 employees globally

AI creates brand new attack surfaces in cloud security

Why vulnerability counting fails: a new approach to risk ops

NetSuite founder reveals AI transformation 5 years in the making

Beter verbonden bedrijfstechnologie is essentieel voor de Nederlandse welvaart

Het einde van SF6 in Europa: wat betekent dit voor datacenters?

Hoe digitalisering de automarkt verandert en private lease versnelt

Doorbreek de vloek van datamigratie: geen downtime, geen drama

De IT Afdeling van de toekomst

GITEX ASIA 2026

GITEX ASIA 2026

Southeast Asia AI Application Summit 2026

SAS Innovate 2026

Team '26

Platform engineering als versneller van de energietransitie

Het pakketprobleem in de logistiek; van claims naar kostenbesparing

Axis maakt met camerasensors de werkomgeving veiliger en efficiënter