IBM heeft onlangs zijn eigen Vela-supercomputer geïntroduceerd die speciaal is ontwikkeld voor het trainen van zogenoemde ‘foundation’ AI-modellen als onder meer GPT-3. Deze nieuwe supercomputer moet volgens IBM de letterlijke basis gaan vormen voor alle eigen onderzoek- en ontwikkelactiviteiten voor dit type AI-modellen.
De techgigant wil met de nieuwe supercomputer vooral onderzoek en ontwikkelwerk gaan doen voor zogenoemde foundation AI-modellen. Dit zijn grote AI-modellen die op schaal met een vaste hoeveelheid van unlabeld data worden getraind. Onder meer via self-supervised learning. Dit moet uiteindelijk een model opleveren dat voor verschillende taken makkelijk kan worden aangepast.
IBM maakte het bestaan van de Vela-supercomputer onlangs bekend, maar de supercomputer is al sinds mei 2022 in verschillende capaciteiten actief. De supercomputer is volledig in de cloud gebouwd. IBM spreekt hierbij onder meer van een supercomputer in de cloud die zelf eigenlijk ook een cloudomgeving is. De techgigant ziet veel voordelen voor het hebben van een cloudgebaseerde supercomputer, die wel wat inlevert op prestaties, vooral op het gebied van productiviteit.
Onderliggende hardware
De cloudgebaseerde supercomputer draait natuurlijk wel op hard- en software. Als hardware-basis gebruikt de Vela-supercomputer van IBM op x86 gebaseerde standaard hardware. Dit in tegenstelling tot de vaak specifieke en ook dure hardware die vaak voor HPC-supercomputers worden gebruikt.
In het Vela-systeem bestaat de hardware van iedere node uit een paar van ‘gewone’ Intel Xeon Scalable-processors. Hieraan worden per node acht 80GB Nvidia A100 GPU’s aan toegevoegd. Verder is iedere node binnen de supercomputer verbonden met verschillende 100 Gbps Ethernet netwerkinterfaces. Ook beschikt iedere Vela-node over 1,5 TB aan DRAM intern geheugen en vier 3.2TB NVMe drives voor storage.
Open-source softwaretechnologie
Softwarematig is de supercomputer uitgerust met een stack van een aantal open-source technologieën die het trainen van de foundation AI-modellen mogelijk moeten maken. Denk daarbij onder meer aan Kubernetes in de vorm van Red Hat OpenShift, PyTorch voor machine learning-training en Ray voor het schalen van de workloads.
Daarnaast heeft IBM ook een nieuw workload-scheduling-systeem voor de Vela gebouwd, het MultiCluster App Dispatcher (MCAD)-systeem. Dit moet cloudgebaseerde job scheduling voor het trainen van foundation AI-modellen afhandelen.
Projecten voor Vela
IBM heeft onlangs een eerste project voor de nieuwe Vela-supercomputer aangekondigd. In samenwerking met NASA gaat de techgigant foundation AI-modellen ontwikkelen voor klimaatwetenschap. Ook werkt IBM aan een foundation AI-model, MolFormer-XL, op het gebied van life sciences. Dit model moet in de toekomst bijvoorbeeld nieuwe molecule ontwikkelen.
Ook gaat de supercomputer mogelijk worden gebuikt in Project Wisdom. Dit interne project moet onder andere AI-functionaliteit in de vorm van een natural language interface toevoegen aan Red Hat Ansible. Verder zou IBM de Vela-supercomputer mogelijk kunnen inzetten voor projecten op het gebied van cybersecurity.