Microsoft heeft zijn open-source AI-tool DeepSpeed een belangrijke update gegeven. Volgens de techgigant zijn AI-specialisten nu in staat om gigantische AI-modellen te ontwikkelen tot zelfs een triljoen parameters.

AI-modellen gebruiken parameters of de ‘inzichten’ die AI leert van het verwerken van data. Deze parameters zorgen voor de accuratesse en de snelheid van de informatie die de AI-modellen of neural networks leveren. Hoe meer parameters neural networks hebben, hoe beter zij de data kunnen verwerken en resultaten leveren met een hogere kwaliteit.

Ontwikkelaars kunnen hun neural networks alleen van de hoeveelheid parameters voorzien die de onderliggende AI-infrastructuur kan verwerken. Kortom hardware beperkt het bouwen van grotere en betere AI-modellen.

Microsoft DeepSpeed

Om hardware voor het trainen van AI-modellen te optimaliseren, heeft Microsoft in februari zijn open-source AI-tool DeepSpeed gelanceerd. DeepSpeed is een software library die AI-ontwikkelaars kunnen gebruiken voor het trainen van AI-modellen. De tool maakt het AI-traningsproces meer hardware efficiënt. Zo kunnen ontwikkelaars hun AI-software verbeteren, zonder daarvoor extra hardware aan te schaffen.

Trainen met 1 biljoen parameters

Met de sinds februari uitgebrachte versies van DeepSpeed konden ontwikkelaars al AI-modellen ontwikkelen met meer dan 100 miljard parameters. In de nu gepresenteerde laatste versie is dit uitgebreid tot maar liefst 1 biljoen parameters. Dit is volgens de techgigant tot vijf keer zoveel als de op dit moment grootste AI-modellen.

Volgens Microsoft kan DeepSpeed nu een op 1 biljoen parameters gebaseerd language-model trainen met 100 Nvidia oude v100 GPU’s. Normaal zou hier volgens de techgigant 4.000 van de laatste generatie Nvidia A100 GPU’s voor nodig zijn en zou het hele proces honderd dagen in beslag nemen. Zelfs met een enkele v100 GPU valt met DeepSpeed nu een model tot 13 miljard parameters te trainen.

Twee technologieën

DeepSpeed maakt deze efficiëntieslag mogelijk door twee technologieën; ZeRO-Offload en 3D parallelism. De eerste technologie helpt AI trainingsservers met het beter afhandelen van de hoeveelheid parameters. Dit door op een creatieve manier het geheugen in de CPU’s van de servers te gebruiken.

De technologie 3D parallelism zorgt voor het distribueren van het trainingswerk over de trainingsservers met memory- en troughput scaling. Zo wordt de efficiency van de beschikbare hardware verbeterd. Daarnaast biedt deze technologie een verbeterde communicatietechnologie. Hiermee wordt het mogelijk het trainen van supergrote AI-modellen van vele miljarden parameters op normale clusters met een beperkte bandbreedte tot zeven keer te versnellen.

Volgens Microsoft wordt het trainen van grote complexe AI-modellen door de laatste versie van DeepSpeed gedemocratiseerd, waardoor iedereen er van moet kunnen profiteren. De laatste versie van DeepSpeed helpt ook bedrijven buiten het enterprise segment bij het ontwikkelen van complexe grote AI-modellen. De techgigant vindt de open source tool nu ook zeer geschikt voor kleinere bedrijven, zoals startups.

Keuze van de redactie

Insight: IT in Retail

Lees meer over Analytics

Top story

Achter de schermen van de Formule E strijdt TCS digitaal mee

De wereld van de Formule E is er een van technologie en snelheid, maar ook duurzaamheid. Precies die combinat...

Erik van Klinken 27 juni 2025

Whitepapers

Microsoft AI-tool DeepSpeed traint gigantische modellen

Microsoft DeepSpeed

Trainen met 1 biljoen parameters

Twee technologieën

Blijf op de hoogte, abonneer!

Achter de schermen van de Formule E strijdt TCS digitaal mee

HPE kan Juniper definitief overnemen na schikking met Amerikaanse overheid

Microsoft trekt kerneltoegang weg bij securitysoftware

Bij Salesforce voert AI 30 procent van het werk uit: wat betekent het?

Vijf redenen waarom AI in je ERP-systeem onmisbaar is voor duurzame retailorganisatie

Aanbieder van e-commerceoplossingen zet eigen portfolio in de etalage

RFID geeft optimaal inzicht en overzicht in zowel winkel als magazijn

Sligro-CISO gebruikt NIST-framework om met management te communiceren

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE

Versterk je cybersecurity met DNS best practices

The AI reality tour

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon