Nvidia heeft zijn Selene-supercomputer in zeer korte tijd weten te bouwen. De supersnelle Selene-supercomputer is al ingezet voor onderzoek naar een mogelijk vaccin tegen het huidige COVID-19-virus.
Volgens de chipset- en GPU-specialist werd de Selene-supercomputer in een tijdsbestek van slechts drie weken ontwikkeld en gebouwd. De Selene-supercomputer is gebaseerd op de technologie van zijn bestaande DGX A100-supercomputersystemen die al voor COVID-19-onderzoek worden ingezet.
Selene is technologisch gebaseerd op de meest recente en geavanceerde DGX SuperPOD-architectuur van Nvidia. Dit is een eerder dit jaar aangekondigd systeem voor het afhandelen van complexe AI-workloads. De DGX SuperPOD-architectuur bevat onder meer acht van de laatste Nvidia A100 GPU’s die specifiek zijn ontworpen voor workloads als data analytics, scientific computing en cloudgebaseerde grafische workloads. Selene is volgens de fabrikant nu de op zes na snelste supercomputer ter wereld.
Gebruik van Circle-ervaring
De korte bouwperiode van de Selene supercomputer was, volgens Nvidia, mogelijk doordat de ontwikkelaars stevig konden leunen op de ervaring die was opgedaan met het bouwen van oudere DGX-2-systemen. Bijvoorbeeld met het traject voor Circle, de op 22 andere supercomputers na snelste supercomputer ter wereld.
Voor deze supercomputer werden onder meer schaalbare modules van 20 nodes ontwikkeld die met ‘thin switches’ met elkaar werden verbonden. Deze werden zo geïnstalleerd, zodat zij aan konden worden gezet en getest voordat er weer een werd toegevoegd. Ook kwam de bekabeling al met vooraf gedefinieerde lengtes die in de fabriek werden gebundeld. Zo konden racks al worden gelabeld en uitgetekend, zodat het proces van het vullen van deze racks met systemen kon worden versimpeld. Hierdoor ontstond een supercomputer-ontwerp dat vooral is gericht op grote hoeveelheden AI workloads en meer flexibiliteit in het ontwerp biedt.
Korte bouwperiode
De ervaring uit dit project leidde ertoe dat de techneuten van Nvidia in de korte tijd alle ideeën over de inzet van networking, opslag, energievoorziening en thermals bij elkaar konden brengen. Hieraan werd nog alle beschikbare kennis over hoe al deze componenten op een juiste manier met elkaar moesten worden verbonden om tot een supersnelle wetenschappelijke supercomputer te komen.
Dat de supercomputer in slechts drie weken tijd kon worden gebouwd, is ook te danken aan een uitgekiend bouwplan. In dit bouwplan werkten teams van twee personen -zonder dat zij elkaar konden tegenkomen in verband met de social distancing-regels- rond de klok om in totaal 60 DGX SuperPOD-systemen per dag in racks te plaatsen. Op afstand werden deze teams ondersteund door beheerders die de bekabeling valideerden en iedere 20-node module, zodra die waren uitgerold, testten.
Beheer met Slack en robot
Selene kan met operators ‘praten’ via Slack. Op deze manier kan de supercomputer problemen als niet-werkende hardware of losse bekabeling doorgeven. De beheerders worden verder ondersteund door de robot ‘Trip’. Deze robot kan de paden in de SuperPOD-systemen afrijden om op afstand zaken in de gaten te houden. Hierdoor hoeven de beheerders zelf niet meer zich fysiek naar de supercomputeromgeving te begeven.
COVID-19-onderzoek
De supercomputer Selene wordt ingezet voor COVID-19-onderzoek. Vooral gaat de supercomputer worden gebruikt om meer inzicht te krijgen in het samensmelten van proteïnen en quantum chemistry. Dit zijn twee belangrijke onderdelen voor het ontwikkelen van een goed vaccin tegen het COVID-19.