Lokale AI is stap dichterbij door Mistral-NeMo 12B

Lokale AI is stap dichterbij door Mistral-NeMo 12B

Het draaien van LLM’s buiten een datacenter om is doorgaans een onmogelijke missie. Nvidia en Mistral laat pc-gebruikers een nieuw model draaien dat wél lokaal werkt.

Mistral NeMo 12B luidt de naam van het nieuwe AI-model, deze week gepresenteerd door Nvidia en Mistral. “We zijn blij dat we kunnen samenwerken met het Nvidia-team en gebruik kunnen maken van hun hoogwaardige hardware en software”, zegt Guillaume Lample, medeoprichter en chief scientist van Mistral AI. “Samen hebben we een model ontwikkeld met ongekende nauwkeurigheid, flexibiliteit, hoge efficiëntie en enterprise-grade ondersteuning en beveiliging dankzij de Nvidia AI Enterprise-implementatie.”

De belofte van het nieuwe AI-model is aanzienlijk. Daar waar eerdere LLM’s gebonden waren aan datacenters, maakt Mistral NeMo 12B de stap naar workstations. En dit zonder in te leveren op de prestaties, is de belofte.

Struikelblokken

Het voornaamste struikelblok is niet het feit dat laptops, desktops en zelfs workstations niet krachtig genoeg zijn voor AI, dat zou enkel betekenen dat een AI-model relatief traag een output genereert. De tekortkoming is de beschikbare hoeveelheid videogeheugen. Een pc met een discrete GPU heeft veelal 4, 6 of 8 GB tot zijn beschikking, met uitschieters voor gaming- of productiviteitsdoeleinden naar 12, 16 of 24 GB. Te weinig voor de volwaardige versies van Meta’s Llama-3 of haar alternatieven, die elk meermaals 80 GB of meer vereisen.

Gebruikers op de subreddit r/LocalLLaMA doen het echter al maanden: een AI-model op de eigen pc draaien dat eigenlijk niet had moeten passen. Normaliter kennen modellen van OpenAI, Meta, Google en hun concurrenten hardware-vereisten die alleen in een cloudomgeving passen. Het trucje dat deze Reddit-gebruikers toepassen, heet kwantisatie. Dit “vervaagt” de parameters van een AI-model, waardoor het minder accuraat wordt. Er is dus een grotere kans op AI-hallucinaties, ofwel foutieve antwoorden.

Lees verder: Hoe mobile AI werkt

Kleine modellen, grote problemen

Voor enterprise-doeleinden moet GenAI zich nog bewijzen. Een speerpunt van cloudleveranciers is om AI-oplossingen te bieden die dataprivacy waarborgen. Dit kan op verschillende manieren via private clouds of bijvoorbeeld sterke beveiliging op data-in-use, maar niets gaat boven een lokale workload. Dat is de enige methode die op een bekende, relatief eenvoudige manier beveiligd kan worden.

Mistral NeMo 12B wordt geleverd als een Nvidia NIM-microservice en is geheel onverrassend geoptimaliseerd voor Nvidia-hardware. Deze gecontaineriseerde deployment maakt het flexibel en snel om gebruik van te maken. “Modellen kunnen waar dan ook deployed worden in minuten, in plaats van enkele dagen,” aldus Nvidia.

Overigens blijft de inzet nog relatief beperkt. Enkel de duurste workstations bezitten de vereiste Nvidia L40S, RTX 4090 of RTX 4500. De goedkoopste optie hiertussen is de 4090, die voor een kleine 1.700 euro los te koop is.

Lees ook: VAST Data heeft Nvidia-certificaat op zak voor optimaliseren AI-datacenters