De AI-onderzoekers van Meta hebben hun zeer grote trainingsmodel, het Open Pretrained Transformer (OPT-175B)-model, openbaar gemaakt. Hierdoor kunnen academische wetenschappers het model gebruiken voor hun onderzoek.

Met het openbaar maken van het OPT-175B-model wil de techgigant het gebruik van zogenoemde large language modellen (LLM’s) stimuleren. LLM’s zijn AI-trainingsmodellen op basis van Natural Language Processing (NLP) die over meer dan 100 miljard verschillende parameters beschikken. Deze gigantische trainingsmodellen zorgen ervoor dat het mogelijk is algoritmes te ontwikkelen die creatieve tekst genereren, simpele wiskundige problemen oplossen en vragen op basis van begrijpend lezen te beantwoorden. Het OPT-175B-model beschikt over meer dan 175 miljard parameters en is getraind op basis van publieke datasets.

De beschikbaarheid van het LLM-model moet onderzoekers helpen vertrouwd te raken met het gebruik van dit soort grote AI-modellen. Bijvoorbeeld door de beperkingen van dit soort modellen te leren kennen, maar ook voor het ontdekken van eventuele gevaren die op dit moment nog niet bekend zijn. Ook moeten door het model te gebruiken voor deze mogelijke gevaren oplossingen worden gevonden.

Combinatie met code en getrainde AI-modellen

Meta AI stelt het model beschikbaar in combinatie met voorgetrainde modellen en de code die is gebruikt voor het trainen van de modellen. De gebruikte code kon worden uitgevoerd met slechts 16 Nvidia V100 GPU’s. Dit betekent dat wetenschappers slechts beperkte computerkracht nodig hebben voor het gebruik, wat het veel eenvoudiger maakt.

De voorgetrainde modellen zijn gebaseerd op dezelfde dataset en met dezelfde instellingen als OPT-175B. Hiermee kunnen onderzoekers van Meta AI testen hoe dit model zich op schaal gedraagt. De voorgetrainde modellen komen in verschillende parametervarianten; 125 miljoen, 250 miljoen, 1,3 miljard, 2,7 miljard, 6,7 miljard, 13 miljard en 30 miljard.

Restricties in gebruik

Hoewel het gebruik van OPT-175B gratis is, implementeert Meta AI wel enige restricties in het gebruik. Het LLM AI-model wordt gedeeld onder een niet-commerciële licentie. Dit om het gebruik van het model alleen te laten richten op wetenschappelijk onderzoek. De toegang tot het zeer grote AI-model is daarom alleen beschikbaar voor academische wetenschappers, overheids- en andere publieke instellingen, universiteiten en sommige industriële onderzoeksinstituten.

Tip: Amazon komt met dataset MASSIVE voor taalbegrip