llm-d sluit zich aan bij CNCF

llm-d sluit zich aan bij CNCF

llm-d is officieel opgenomen als CNCF Sandbox-project. Daarmee staat het project onder beheer van de Linux Foundation en biedt het een open standaard voor AI-inferencing op elke accelerator en in elke cloudomgeving.

De Cloud Native Computing Foundation (CNCF) heeft llm-d opgenomen als officieel Sandbox-project. Daarmee landt het distributed inference-framework onder het beheer van de Linux Foundation, wat organisaties de zekerheid geeft te bouwen op een neutrale, open standaard. llm-d werd in mei 2025 gelanceerd als gezamenlijk initiatief van Red Hat, Google Cloud, IBM Research, CoreWeave en Nvidia, met één heldere visie: elk model, elke accelerator, elke cloud.

Sindsdien sloten AMD, Cisco, Hugging Face, Intel, Lambda en Mistral AI aan als partners. Ook de universiteiten van Californië (Berkeley) en Chicago, bekende namen in de vLLM- en LMCache-wereld, ondersteunen het project. Met de CNCF-opname krijgt llm-d nu de governance-structuur en het open bestuur die bedrijven nodig hebben om er serieus op te bouwen.

Kubernetes-native inferencing als eerste klas workload

Het project richt zich op een concreet knelpunt: AI-serving is stateful en latency-gevoelig, terwijl traditionele service routing en autoscaling daar volledig blind voor zijn. Dat leidt tot inefficiënte plaatsing, cache-fragmentatie en onvoorspelbare latentie. llm-d pakt dit aan door als primaire implementatie van de Kubernetes Gateway API Inference Extension (GAIE) te fungeren, met inference-bewuste traffic management via de Endpoint Picker (EPP).

Daarnaast biedt het framework Prefill/Decode Disaggregation. De verwerking van prompts en het genereren van tokens worden opgesplitst in afzonderlijk schaalbare pods. Hierarchische KV cache offloading verdeelt geheugenbelasting over GPU, CPU en storage. Uit de recentste v0.5-release blijkt dat llm-d bij een multi-tenant SaaS-scenario bijna nul latentie behoudt en opschaalt naar circa 120.000 tokens per seconde.

Vendor lock-in voorkomen is een kernprincipe. Via model- en state-aware routing policies stuurt llm-d requests naar de meest geschikte hardware van Nvidia, AMD of Google, wat verbeteringen oplevert in metrics als Time to First Token (TTFT) en token throughput. Het project wil ook de maatstaf worden voor open, reproduceerbare inferentie-benchmarks.