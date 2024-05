Red Hat heeft een drukke week achter de rug met het afronden van de jaarlijkse Summit. Zo onthulde het bedrijf tijdens ons bezoek aan het evenement in Denver InstructLab. Het is een nieuw initiatief waarmee het de ontwikkeling van open-source AI verder wil helpen.

In de basis moet InstructLab de ontwikkeling van large language models verder brengen. Dit moet gerealiseerd worden door de trainingsfase van de modellen te versimpelen en versterken. Volgens Red Hat, dat voor InstructLab nauw samenwerkt met moederbedrijf IBM, staan bedrijven namelijk voor uitdagingen bij het aanpassen van een LLM. De uitdagingen maken het lastig om een getraind LLM aan te passen aan de wensen van een bedrijf.

Zoomen we wat verder in op de obstakels van bedrijven, dan ziet Red Hat dat organisaties nu doorgaans een bestaand open model afsplitsen om de kennis of vaardigheden toe te voegen. Vervolgens wordt voor de training op dure en resource-intensieve methodes vertrouwd. Daarnaast is het lastig om verbeteringen door te voeren, iets waar een community via open-source aan zou kunnen bijdragen.

Lees ook: Red Hat maakt van OpenShift de hybride AI en cloud-pion

Met InstructLab moet er een manier zijn om de beperkingen aan te pakken. Het versterkt een large language model door gebruik te maken van minder door mensen gegenereerde informatie. Ook zijn voor het opnieuw trainen van het model minder resources nodig dan voorheen. De aanpak zorgt ervoor dat een LLM voortdurend verbeterd kan worden door iedereen die dat zou willen binnen een bedrijf.

Het grote doel van Red Hat is om bedrijven te ondersteunen bij het regelmatig opnieuw trainen van modellen. Bedrijven kunnen InstructLab ook gebruiken om hun eigen private LLM’s te trainen die over bedrijfseigen vaardigheden en kennis beschikken.

Hoe realiseert InstructLab de progressie?

Om dit mogelijk te maken, bevat InstructLab drie componenten. Ten eerste iets wat Red Hat omschrijft als taxonomy-driven data curation. Dit is een set diverse trainingsdata door mensen samengesteld. De dataset kan als voorbeeld dienen als nieuwe kennis en vaardigheden voor het model.

Het tweede onderdeel van InstructLab heet large-scale synthetic data generation. Synthetische data is nog niet heel breed bekend als begrip, maar het gaat hier om gegevens gegenereerd door AI. Het model wordt gebruikt om nieuwe samples te genereren gebaseerd op de trainingsdata uit de echte bedrijfssituaties. InstructLab wil hierbij de kwaliteit garanderen door een geautomatiseerde stap toe te voegen die de antwoorden verfijnt. De response van het model moet zo een stuk betrouwbaarder worden.

Tot slot heeft Red Hat iterative, large-scale alignment tuning onderdeel gemaakt van InstructLab. Deze stap houdt in dat het model opnieuw getraind wordt op basis van de synthetische data. Hierin worden de kennis en de vaardigheden van het model verfijnd. Die twee zaken zijn los van elkaar belangrijk voor een LLM; bij een tekst-gefocust model is bijvoorbeeld eerst de kennis nodig over het produceren van goede tekst voordat het model daadwerkelijk goede teksten kan produceren (vaardigheden).

Toekomstige stappen

Als je wat verder kijkt naar InstructLab, dan valt op dat het project goed laat zien hoe de relatie tussen IBM en Red Hat is. Er wordt namelijk gebruikgemaakt van Large-scale Alignment for chatBots (LAB) van IBM, dat gemaakt is om de schaalbaarheidsuitdagingen aan te pakken in de trainingsfase bij LLM-training. Daarnaast beschikt het over een versterkte versie van Granite, de foundational models van IBM. Het inzetten van deze technologieën laat wat ons betreft zien dat IBM zijn dochterorganisatie Red Hat goed inzet om veelbelovende technologieën via de open-source route naar een bredere community te brengen. Daar kan Red Hat met de open-source achtergrond bij helpen.

In de gesprekken die we tijdens Red Hat Summit hadden over InstructLab, blijkt dan ook dat vooral een community een centrale rol moet gaan spelen in de verdere ontwikkeling van het AI-project. Met de vele ontwikkelingen rond AI kunnen de benodigde functies van InstructLab over een paar maanden immers alweer veranderd zijn. Maar Red Hat wilde het project vooral nu naar buiten brengen, om de uitdagingen van LLM’s te lijf te gaan.

Tip: Red Hat past Enterprise Linux aan voor AI