Meta introduceert eerste multimodale modellen van Llama

Bedrijf komt ook met text-only varianten die rechtstreeks op devices draaien

Meta introduceert eerste multimodale modellen van Llama

Meta heeft Llama 3.2 LLM uitgebracht. Varianten zijn de 11 en 90 miljard-parameter vision multimodale LLM’s en twee kleinere tekst-only-varianten van 1 en 3 miljard parameters voor vooral on-device- en edge-toepassingen.

Meta geeft aan dat de twee grootste Llama 3.2 LLM’s van 11 en 90 miljard parameters geschikt zijn voor geavanceerde beeldinterpretatie. Het zijn dan ook de eerste multimodale LLM’s van de social media- en techgigant. Denk daarbij aan het op documentniveau begrijpen van kaarten en grafieken, het omzetten van beeld in tekst en meer vision-taken als het directioneel aangeven van objecten in beelden op basis van in normale taal gestelde vragen (Zoals: “Hoe ver staat de pot van deze ketel?”).

Volgens Meta kunnen deze LLM’s ook een brug slaan tussen beeld en taal door details uit een beeld te halen, de betreffende scène te begrijpen en vervolgens een zin te genereren die als bijschrift voor het betreffende beeld kan worden gebruikt om het verhaal te vertellen.

LLM-versies voor on-device toepassingen

De kleine 1 en 3 miljard parameter-LLM’s hebben onder meer goede meertalige tekstgeneratie- en ‘tool calling’-functionaliteit. Hiermee kunnen ontwikkelaars onder meer on-device-maar ook edge apps met een sterke privacy bouwen en ervoor zorgen dat data nooit het device verlaat.

Meta ziet hierbij twee voordelen. In de eerste plaats kunnen gebruikers hierdoor de antwoorden op hun prompts als ‘directere’ output ervaren. Dit omdat de verwerking lokaal op het betreffende device plaatsvindt. Het tweede voordeel is dat het lokaal draaien van de verwerkingsprocessen de privacy beter waarborgt. Acties voor bijvoorbeeld messages of kalenderactiviteiten worden daarbij niet naar de cloud gestuurd. Dit maakt de werking van de betreffende app nog meer privé.

Zo’n app kan in de gaten houden welke zoekvragen lokaal op het device en welke eventueel naar de cloud voor verwerking door een groter LLM moeten worden doorgestuurd. De 1 en 3 miljard parameter-LLM’s zijn volgens Meta geoptimaliseerd voor hardware van Qualcomm en MediaTek en voor Arm-processors.

Llama Stack-distributies

Naast de modellen introduceerde Meta verder de eerste Lllama Stack-distributies. Dit moet de manier vereenvoudigen waarop developers met de Llama LLM’s in verschillende omgevingen werken, inclusief single-node-, on-premises-, cloud- en on-device-omgevingen, en voorzien in betere toegang.

Onderdelen van Llama Stack zijn onder meer Llama CLI voor het bouwen, configureren en draaien van de Llama Stack-distributies, client-code in meerdere programmeertalen als Python, Node.js en Agents API Provider en Docker-containers voor Llama Stack Distribution Server en Agents API Provider.

Ook zijn meerdere distributies uitgebracht, waaronder de single-node Llama Stack Distribution via interne Meta-implementatie en Ollama, cloudgebaseerde Llama Stack distributies vanuit AWS, Databricks, Fireworks en Together, on-device distributies op iOS via PyTorch ExecuTorc en een door Dell ondersteunde on-premises Llama Stack Distribution.

Beschikbaarheid Azure en Google Cloud

Verder zijn de diverse Llama 3.2-versies van Meta nu ook beschikbaar via Microsoft Azure en Google Cloud. Op Azure zijn onder andere beschikbaar: Llama 3.2 1B, Llama 3.2 3B, Llama 3.2-1B-Instruct; Llama 3.2-3B-Instruct, Llama Guard 3 1B, Llama 3.2 11B Vision Instruct, Llama 3.2 90B Vision Instruct en Llama Guard 3 11B Vision.

De Llama 3.2 11B Vision Instruct- en Llama 3.2 90B Vision Instruct LLM’s zijn nu ook beschikbaar in de Azure AI Model Catalog.

Google Cloud biedt alle vier Llama 3.2 LLM’s aan in Vertex AI Model Garden. Alleen het Llama 3.2 90B LLM is op dit moment in preview beschikbaar via Google’s Model-as-a-Service (MaaS)-product.

Lees meer: Llama 3.1 is grootste model: keerpunt in open source AI?