Microsoft heeft zijn open-source AI-tool DeepSpeed een belangrijke update gegeven. Volgens de techgigant zijn AI-specialisten nu in staat om gigantische AI-modellen te ontwikkelen tot zelfs een triljoen parameters.
AI-modellen gebruiken parameters of de ‘inzichten’ die AI leert van het verwerken van data. Deze parameters zorgen voor de accuratesse en de snelheid van de informatie die de AI-modellen of neural networks leveren. Hoe meer parameters neural networks hebben, hoe beter zij de data kunnen verwerken en resultaten leveren met een hogere kwaliteit.
Ontwikkelaars kunnen hun neural networks alleen van de hoeveelheid parameters voorzien die de onderliggende AI-infrastructuur kan verwerken. Kortom hardware beperkt het bouwen van grotere en betere AI-modellen.
Microsoft DeepSpeed
Om hardware voor het trainen van AI-modellen te optimaliseren, heeft Microsoft in februari zijn open-source AI-tool DeepSpeed gelanceerd. DeepSpeed is een software library die AI-ontwikkelaars kunnen gebruiken voor het trainen van AI-modellen. De tool maakt het AI-traningsproces meer hardware efficiënt. Zo kunnen ontwikkelaars hun AI-software verbeteren, zonder daarvoor extra hardware aan te schaffen.
Trainen met 1 biljoen parameters
Met de sinds februari uitgebrachte versies van DeepSpeed konden ontwikkelaars al AI-modellen ontwikkelen met meer dan 100 miljard parameters. In de nu gepresenteerde laatste versie is dit uitgebreid tot maar liefst 1 biljoen parameters. Dit is volgens de techgigant tot vijf keer zoveel als de op dit moment grootste AI-modellen.
Volgens Microsoft kan DeepSpeed nu een op 1 biljoen parameters gebaseerd language-model trainen met 100 Nvidia oude v100 GPU’s. Normaal zou hier volgens de techgigant 4.000 van de laatste generatie Nvidia A100 GPU’s voor nodig zijn en zou het hele proces honderd dagen in beslag nemen. Zelfs met een enkele v100 GPU valt met DeepSpeed nu een model tot 13 miljard parameters te trainen.
Twee technologieën
DeepSpeed maakt deze efficiëntieslag mogelijk door twee technologieën; ZeRO-Offload en 3D parallelism. De eerste technologie helpt AI trainingsservers met het beter afhandelen van de hoeveelheid parameters. Dit door op een creatieve manier het geheugen in de CPU’s van de servers te gebruiken.
De technologie 3D parallelism zorgt voor het distribueren van het trainingswerk over de trainingsservers met memory- en troughput scaling. Zo wordt de efficiency van de beschikbare hardware verbeterd. Daarnaast biedt deze technologie een verbeterde communicatietechnologie. Hiermee wordt het mogelijk het trainen van supergrote AI-modellen van vele miljarden parameters op normale clusters met een beperkte bandbreedte tot zeven keer te versnellen.
Volgens Microsoft wordt het trainen van grote complexe AI-modellen door de laatste versie van DeepSpeed gedemocratiseerd, waardoor iedereen er van moet kunnen profiteren. De laatste versie van DeepSpeed helpt ook bedrijven buiten het enterprise segment bij het ontwikkelen van complexe grote AI-modellen. De techgigant vindt de open source tool nu ook zeer geschikt voor kleinere bedrijven, zoals startups.