Recent kreeg Nvidia na wat gesteggel goedkeuring voor de overname van het Israëlische Run:ai. Nu is de deal officieel rond. Ook is Nvidia van plan de software van Run:ai open-source te maken. Waarom doet het dat?
Volgens ingewijden had Nvidia 700 miljoen dollar over voor Run:ai, maker van software voor het orchestreren van GPU-clusters voor AI-workloads. De combinatie ligt erg voor de hand: via Run:ai Dev, en de Run:ai API, Control Plane en Cluster Engine zijn AI-workloads tot in de haarvaten te reguleren.
De software werkt momenteel enkel op Nvidia-GPU’s, zoals wel vaker het geval is voor enterprise AI-software. Immers zijn de AI-chips van Nvidia compleet dominant op dit gebied, waarbij enkel de TPU’s op Google Cloud en een rariteitenkabinet aan gespecialiseerde acceleratoren voor wat variatie zorgen. Het overgrote merendeel van het AI-ecosysteem draait echter om CUDA, de architectuur achter Nvidia. Gek genoeg willen Nvidia en Run:ai dat nu juist veranderen.
Goedkeuring onder voorwaarden?
De Europese Unie was het enige regelgevende orgaan dat weerstand bood tegen de Run:ai-overname van Nvidia. Wat precies de eisen waren, is niet naar buiten gekomen. “Concrete risico’s voor competitie” werden binnen EU-lidstaat Italië aangekaart, maar de Commissie oordeelde ruim een week geleden dat er geen grote zorgen waren na nader onderzoek.
Dit is niet al te gek: het optimaliseren van Nvidia-GPU’s kan op allerlei manieren. Cloud GPU-specialisten zoals CoreWeave krijgen uitgebreid steun van Nvidia om hun compute te maximaliseren voor eindklanten. Dit gebeurt tevens regelmatig op basis van Ethernet-connectiviteit, niet alleen op Nvidia’s eigen InfiniBand-standaard.
Toch lijkt het erop dat enige scepsis vanuit regelgevers beantwoord moet worden. Nu Run:ai officieel onderdeel is van Nvidia, is het plan van de overgenomen partij om de eigen software te open-sourcen. “Hoewel Run:ai momenteel alleen Nvidia-GPU’s ondersteunt, zal het open-sourcen van de software het mogelijk maken om haar beschikbaarheid naar het gehele AI-ecosysteem uit te breiden.”
Lastiger dan het lijkt
Lees: wie het wil, kan zelf AMD- en Intel-ondersteuning vastknopen aan de Run:ai-stack. Dat gebeurt tegenwoordig wel vaker, doorgaans om AMD’s equivalent van CUDA, ROCm, inzetbaar te maken voor grootschalige AI-workloads. Als enige serieuze alternatief voor Nvidia zijn AMD Instinct-GPU’s voorzien van ondersteuning met wat omwegen.
“De realiteit is dat mensen op hogere niveaus van abstractie willen schrijven,” vertelde AMD SVP of AI Vamsi Boppana aan The Register. Denk daarbij aan PyTorch, dat tevens AMD en Intel voorziet van AI-frameworks. Toch is support op papier alleen dat. Optimalisaties voor Nvidia (en alléén Nvidia) komen nog steeds regelmatig voor bij populaire AI-tooling. James Wang, Creative Ventures General Partner, noemt uit eigen ervaring de CUDA-alternatieven uit het verleden een “pain in the ass“. Hij vergelijkt de controle die Nvidia heeft over de AI-stack met de dominantie van Apple over het eigen ecosysteem. Wie support voor Android-versies van iOS-apps onder de loep nam in de eerste jaren van de smartphone-revolutie, weet hoe schril dat contrast kan zijn. In diezelfde fase zit GPU-optimalisatie nu voor AI-workloads.
Dit betekent dat het open-sourcen van een product als Run:ai voor Nvidia geen problemen oplevert. Het is een goede zet, niet alleen omdat het de keuze objectief vergroot voor developers. Bovenal is het een herhaling van wat er bij eerdere AI-tooling plaatsvond: de optimalisatie voor Nvidia heeft allang plaatsgevonden, nu is het aan de alternatieven om een reëel ecosysteem op te bouwen dat ermee kan concurreren. Zelf heeft Run:ai die noodzaak in ieder geval niet gezien.