Nikhef voert complexe berekeningen uit op Lenovo-infrastructuur

Abonneer je gratis op Techzine!

HPC, voluit high performance computing, is een architectuur om specifieke berekeningen snel uit te voeren. Vaak komen hier grote hoeveelheden data bij kijken, om de einduitkomst goed te berekenen. Om erachter te komen hoe dat precies in de praktijk kan werken, gingen we recent in gesprek met IT-architect Tristan Suerink van Nikhef, het Nederlandse onderzoeksinstituut dat HPC inzet voor complexe berekeningen. Bij ons gesprek schuift ook Rick Koopman aan, EMEA Technical Leader High Performance Computing bij Lenovo, die Nikhef helpt bij en voorziet van de infrastructuur.

Lenovo Infrastructure Solutions Group, voorheen bekend als Lenovo Data Centre Group, speelt een centrale rol in de HPC-strategie van verschillende organisaties. Het heeft een breed hardware- en services-portfolio om een server of datacenter volledig in te richten. De traditionele componenten compute, storage en networking staan uiteraard aan de basis, maar er zijn ook allerlei componenten waarmee infrastructuur slim en naar wens van de klant ingericht wordt. Soms vormen veel eigen Lenovo-onderdelen de basis, maar in de serverconfiguraties zijn vaak, waar bevorderlijk voor de klant, veel componenten van Lenovo-partners te vinden.

In principe zijn er twee manieren waarop Lenovo infrastructuur doorgaans inricht. Er zijn standaard configuraties die voldoen aan de wensen van de klant. Dan kan nieuwe infrastructuur relatief snel uitgerold worden. Wat je echter vaak ziet, is dat organisaties specifieke en unieke behoeftes hebben, behorend bij hun situaties. Zeker bij HPC komt dat regelmatig voor. In dat geval kijkt men samen met de klant wat er nodig is. Zijn er bijvoorbeeld gerichte features en chips nodig om van het HPC-project een succes te maken? Vaak weten de partijen na inventarisatie hoe de configuratie eruit moet zien. Dat kan een unieke implementatie zijn, wat in principe niet uitmaakt voor Lenovo. De infrastructuurleverancier gaat alles bouwen en inrichten zoals gewenst.

Hoe ziet de Nikhef-configuratie eruit?

Koopman haalt aan dat voor Nikhef zo’n unieke configuratie gecreëerd is. “De HPC-cluster van Nikhef kent qua hardware een hele andere opbouw dan andere situaties. Hiermee kan geanticipeerd worden op het specifieke patroon van de workload. Wat we dus eigenlijk aan Nikhef geleverd hebben is de beste fit voor de behoeften van het onderzoeksinstituut”, aldus Koopman. Dat betekent onder meer een gerichte processor inzetten en goede netwerkverbinding om data in de omgeving te krijgen en te kunnen berekenen.

“Voor de eerste levering heeft Nikhef van Lenovo een single socket AMD server aangeleverd gekregen t.b.v. het testen van hun applicatie workload”, zo wordt uitgelegd aan Techzine. Met deze levering wilden de partijen bevestigd krijgen dat een single socket de beste fit was voor de behoeften voor hoge I/O bandbreedte en 64 core compute kracht, optimaal gebruikmakend van de aanwezige PCIe Gen. 4 I/O paden welke AMD beschikbaar heeft.

Meer recent volgde een andere levering. “De behoefte ligt op een hogere klok per rekenkern, maar wel met veel rekenkernen per systeem. Hiervoor wordt nu gebruikgemaakt van single-socket AMD servers met AMD Rome 64 core processor (7H12 processor).”

Wat maakt de HPC-toepassing uniek?

Met de HPC-cluster kan Nikhef zijn werkzaamheden goed uitvoeren, vertelt Suerink ons. In de basis gaat het hierbij om het ondersteunen van allerlei organisaties die zich met onderzoek naar de bouwstenen van het universum bezighouden. Het betreft vaak fundamenteel onderzoek door instituten en universiteiten in Nederland of daarbuiten. Of, om het wat tastbaarder te maken: in de beginfase van de coronacrisis werd de infrastructuur ingezet voor Covid-19-onderzoek. De universiteit van Washington werd ondersteund om de eiwitstructuren te ontrafelen, iets waarvoor massaal rekenwerk vereist was.

Uiteindelijk vereisen alle projecten waar Nikhef een rol in speelt veel rekenkracht om data te verwerken. Alles moet uitgelezen en verwerkt worden op een schaal zoals wereldwijd eigenlijk nog niet eerder gebeurde. Suerink legt uit dat om aan die eisen te voldoen, het onderzoeksinstituut enkele jaren geleden op zoek ging naar modernere infrastructuur. “De toepassing bepaalde hierbij echt de infrastructuur”, aldus Suerink. Een single-socket AMD systeem van Lenovo, die Suerink tijdens een conferentie tegenkwam, bleek het startpunt te zijn van het project. “Het prototype paste goed bij onze gewenste configuratie, mede doordat de AMD-processor veel bandbreedte heeft. We hebben het systeem als het ware uit elkaar getrokken en zijn zo verder gaan bouwen”, legt Suerink uit.

Bij het vormgeven van de nieuwe architectuur werd uiteraard wel gekeken naar andere infrastructuurleveranciers, maar de keuze viel uiteindelijk op Lenovo. Volgens Suerink speelde Lenovo goed in op feedback en kan de IT-infrastructuur goed meegroeien met de eisen die er gesteld worden. “De gebruiker heeft veel rekenkracht, netwerkbandbreedte en werkgeheugen nodig om door te rekenen. We kunnen dat van Lenovo kopen, maar ook bij anderen. En we willen elk jaar een nieuwe cluster, omdat we snel van de laatste technologie gebruik kunnen maken”, stelt Suerink.

Nikhef zag bijvoorbeeld dat wetenschappers meer met grafische kaarten wilden doen. Daar is ook echt de uniekheid van de implementatie te zien, stelt Suerink. In de architectuur zijn Versneller-kaarten van Nvidia en AMD opgenomen. “Maar we zijn niet zo’n groot voorstander van Nvidia’s gesloten ontwikkelmodel.  Daarom zetten we grotendeels in op grafische kaarten van AMD, met daarnaast een paar Nvidia-kaarten voor het eerlijke vergelijk. Lenovo bood ons die flexibiliteit”, legt Suerink uit. Qua prestaties verschilt het volgens Suerink weinig: de grafische kaarten van AMD zijn zo’n vijf tot tien procent trager maar kosten wel ongeveer de helft van de prijs. In de praktijk is dat verschil bijna niet meer merkbaar en werkt het draaien van de eigen geschreven code op de AMD-kaarten goed. Suerink stelt dat het onderzoeksinstituut als een van de eerste ter wereld met zo’n gerichte AMD-configuratie op de proppen kwam, vanwege de workload die het instituut verwerkt.

Situaties waar onderzoeksinstituut voor staat

De kernzaak voor Nikhef blijft wetenschap, benadrukt Suerink, iets waar interessante infrastructuuruitdagingen uit komen rollen. Daarin speelt Lenovo nu een rol, maar dat is niet altijd het geval geweest. Suerink noemt namelijk een voorbeeld van een onderzoek in Italië om donkere materie in het universum te detecteren. Dit experiment staat 1,5 kilometer onder de grond in een berg, waar de omstandigheden niet ideaal zijn en weinig IT-infrastructuur aanwezig is. Daar had men een fysieke container opgezet met daarin wat computers om de data te verwerken. Zo’n setup is onvoldoende voor het onderzoek dat gedaan wordt. De onderzoekers wilden daarom onder andere de data in Amsterdam bij Nikhef krijgen, want dat is een van de punten waar de data opgeslagen en verwerkt wordt en naar de rest van de wereld gaat.

Suerink ging zodoende in gesprek met de mensen in Italië om de situatie te bekijken. “Je bent in dergelijke situaties enorm afhankelijk van de locatie. We namen zodoende contact op met SURFnet, de academische internetprovider, die contact heeft met Italiaanse organisaties. Want je wil 2 á 3 gigabit aan data versturen over langere periodes. En we hebben het opgelost met robuuste machines”, aldus Suerink. Destijds was dat nog niet Lenovo, maar Suerink heeft er vertrouwen in dat met het huidige contact Lenovo een goede technische oplossing kan bieden voor deze toepassing.

Afrondend kunnen we concluderen dat HPC zeer gericht op het type workload ingezet wordt. De infrastructuur moet daar op ingericht worden, met vaak unieke configuraties. Dat is ook zeker bij Nikhef het geval. Het onderzoeksinstituut vertrouwt erop dat de situaties waar onderzoekers voor komen te staan, te ondersteunen zijn met de HPC-infrastructuur. Indien gewenst groeit het met moderne eisen mee. Want de te ondersteunen onderzoeken komen in de loop der tijd met veranderende eisen voor complexe berekeningen. Dat kan alleen ondersteund blijven worden als de infrastructuur zich aanpast en updatet.