Microsoft en Nvidia introduceren gigantisch AI-model

Microsoft en Nvidia hebben een gezamenlijk gigantisch op ‘transformer language’ gebaseerd AI-model ontwikkeld; het Megatron-Turing Natural Language Generation model. Dit AI-model heeft maar liefst 530 miljard parameters.

Het model is veel sterker dan vorige grote AI-modellen die beiden leveranciers hebben ontwikkeld, zoals het Turing-NLG model van Microsoft en het Megatron-LM-model van Nvidia. Met de 530 miljard parameters in 105 verschillende lagen verslaat het nieuwe model andere gigantische AI-modellen als GPT-3 van OpenAI met 175 miljard parameters, maar nog niet het Switch Transformer-demomodel van Google met 1,6 biljoen parameters.

Hoe groter een neural AI-model is, hoe beter. Hierdoor kan het AI-model meer trainingsdata binnenhalen. MT-NLG moet door zijn omvang beter in staat zijn meer natural language-taken af te handelen dan de voorgangers. Denk daarbij aan het automatisch samenstellen van zinnen, vraag en antwoord en lezen en argumenteren. Daarnaast moet het AI-model deze taken uitvoeren, zonder dat mensen deze taken hoeven te finetunen. Dit wordt ook wel few-shot of zero shot learning genoemd.

Rekenkracht en DeepSpeed-software

Voor het slagen van deze taken is wel de gebruikte rekenkracht en de training van het AI-model belangrijk. Het door Microsoft en Nividia ontwikkelde model is gebouwd met behulp van de Selene supercomputer van Nvidia. Hiervoor werden uiteindelijk 560 DGX A100 servers met ieder acht A100 80GB GPU’s gebruikt. De supercomputer draait daarnaast op AMD’s EPYC 7v742 CPU’s.

De in totaal 4.480 gebruikte GPU’s gebruiken NvLink en NVSwitch voor de onderlinge verbindingen. Iedere GPU had een verwerkingssnelheid van meer dan 113 teraFLOP’s per seconde. Aangezien het trainen van gigantische modellen als MT-NLG een dure aangelegenheid is en veel tijd kost, moet software worden gebruikt om het proces te bespoedigen. Voor het trainen van MT-NLG gebruikten Microsoft en Nvidia DeepSpeed, een deep learning library met PyTorch-code. Hierdoor kon meer data in parallelle pipelines worden gestopt. Tensor-slicing van Nvidia’s Megatron-LM werd gebruikt om het model in een node te schalen en gebruikt parallelle pipeline-technologie van DeepSpeed voor het schalen van het model over meerdere nodes.

Training met The Pile

De uiteindelijke training van het gigantische AI-model vond plaats met een extreem grote dataset dat bekend staat als ‘The Pile’. Dit is een open-source language-model dat bestaat uit meerdere kleinere datasets. De complete dataset bestaat uit 825 GB aan van het internet geschraapte tekst uit bronnen als Wikipedia, bibliotheken van academische wetenschappelijke tijdschriften en nieuwsknipsels.

Waarvoor MT-NLG wordt ingezet, is nog niet bekend. In ieder geval gaan Microsoft en Nvidia de komende tijd het gigantische AI-model verder perfectioneren.

Keuze van de redactie

Insight: IT in Retail

Lees meer over Analytics

Top story

Cognizant en Google Cloud slaan brug tussen AI-visie en praktijk met AI-lab

Cognizant heeft in samenwerking met Google Cloud een AI-lab ontwikkeld in Amsterdam. Bart Moens (Solutions Sp...

Coen van Eenbergen 7 juli 2025

Tech calendar

Microsoft en Nvidia introduceren gigantisch AI-model

Rekenkracht en DeepSpeed-software

Training met The Pile

Blijf op de hoogte, abonneer!

Nvidia bereikt als eerste mijlpaal van 4 biljoen dollar marktwaarde

De AI-golf dwingt organisaties hun infrastructuur te herzien

Veel wegen leiden naar Oracle: de routes van VTTI en Hendrix Genetics

KnowBe4 gaat van security training naar human risk management

Vijf redenen waarom AI in je ERP-systeem onmisbaar is voor duurzame retailorganisatie

Aanbieder van e-commerceoplossingen zet eigen portfolio in de etalage

RFID geeft optimaal inzicht en overzicht in zowel winkel als magazijn

Manhattan Associates levert supply chain-software, is het meer dan een fancy naam?

Krijg Volledig Inzicht van Gebruiker tot Cloud met Cisco ThousandEyes

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Is jouw endpointbeveiliging op orde?

Hoe maak je duurzaamheid echt praktisch?

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing