Microsoft heeft met de ND A100 v4 een speciale virtuele Azure instance ontwikkeld die zich volledig richt op het trainen van AI-modellen voor supergrote neurale netwerken.
Met de introductie van de ND A100 v4 virtuele Azure instance begeeft Microsoft zich op het terrein van het ontwikkelen van supergrote AI-modellen die voor meerdere doeleinden kunnen worden ingezet. Binnen de wereld van AI is dit al langer een trend.
Het voordeel van deze supergrote AI-modellen is dat ze slechts één keer hoeven te worden getraind met grote hoeveelheden data. Hiervoor wordt ‘AI-supercomputing’ ingezet. Op deze manier zijn de supergrote AI-modellen te finetunen voor verschillende taken en domeinen met veel kleinere datasets en bronnen. Een voorbeeld van een super AI-model is het GPT-3-model van onderzoeksgroep OpenAI. Dit model heeft maar liefst 175 miljard parameters en kan verschillende uiteenlopende taken uitvoeren, zoals het internet doorzoeken of code schrijven.
Microsoft is partner van OpenAI en heeft dus ook het gebruik van supergrote AI-modellen omarmd. Zo gebruikt de techgigant dit soort AI-modellen om bijvoorbeeld zijn producten Bing en Outlook te ondersteunen.
Grote clusters vm’s nodig
Het trainen van supergrote AI-modellen vereist echter zeer grote clusters van honderden (virtuele) machines met speciale AI-accelerators en interconnectiviteit met hogesnelheidsnetwerken binnen en tussen de machines. De techgigant bouwt deze clusters nu in Azure om de ontwikkeling van al deze massale AI-activiteiten te kunnen ondersteunen. Dit heeft onder meer geleid tot wat Microsoft de eerste AI-supercomputers noemt.
Volgende stap
De introductie van de ND A100 v4 Azure instance of vm is binnen dit proces een volgende stap, aldus Microsoft. Met deze nieuwe public cloud instance wil de techgigant de technische mogelijkheden van Azure voor AI-supercomputing verbeteren. Klanten zijn straks zelf in staat om het potentieel van het trainen van supergrote AI-modellen te benutten. Volgens de techgigant kunnen zij hun prestaties op dit gebied met de nieuwe Azure instances tot 20 keer versnellen.
Specificaties ND A100 v4 Azure instance
Een enkele ND A100 v4 instance beschikt over acht NVIDIA Ampere A100 Tensor Core GPU’s. Klanten kunnen meerdere instances met elkaar verbinden om AI-trainingsclusters te genereren die over duizenden GPU’s beschikken. De GPU’s beschikken ieder over een 200 Gbps NVIDIA Mellanox HDR InfiniBand-netwerkverbinding.
Deze verbindingen zorgen ervoor dat de GPU’s met elkaar tussen de instances kunnen communiceren. Hoe sneller zij met elkaar kunnen communiceren, hoe sneller zij de data kunnen verwerken. Volgens Microsoft levert dit tot 16 keer snellere GPU-naar-GPU bandbreedte op dan andere public cloudomgevingen. De techgigant spreekt van interconnectiesnelheden van 1,6 Tbps.
Daarnaast wordt de ND A100 v4 instance ondersteund door een nieuw speciaal voor Azure ontwikkeld AMD Rome-platform. Naast de laatste generatie AMD EPYC-processors bestaat dit platform uit in alle systemen ingebouwde PCIe Gen4-technologie en de derde generatie NVLINK-architectuur van NVIDIA voor snelle GPU-naar-GPU-inteconnectie.
Beschikbaarheid
De ND A100 v4 VM series en clusters van Microsoft op Azure zijn nu in preview beschikbaar. De techgigant geeft aan dat deze instances in de toekomst standaard onderdeel gaan vormen van het Azure-portfolio.