Z by HP workstations zijn gemaakt voor data science

Abonneer je gratis op Techzine!

Data scientists werken vaak met grote hoeveelheden data en hebben vrij specifieke eisen als het gaat om hun werkomgeving. De cloud speelt daar zonder twijfel een belangrijke rol in, maar heeft ook zo zijn beperkingen. Workstations kunnen voor sommige taken beduidend geschikter zijn. Deze boodschap wil HP met haar Z by HP workstations overbrengen.

Z by HP is de hoogste serie in het omvangrijke productaanbod van HP. Met deze serie richt HP zich op de zwaardere gebruikers die ook veel en zware software gebruiken. Een belangrijk kenmerk van deze serie is dat er is voorzien in een dedicated grafische kaart. Testen volgens de MIL-STD 810G-standaard zorgt ervoor dat ze ook tegen een stootje kunnen. Ze zijn gemaakt om 24 uur per dag, 7 dagen per week operationeel te zijn, ook in omgevingen die wellicht niet optimaal zijn. Verder legt HP de nodige nadruk op de mogelijkheden tot het upgraden van de machines in deze lijn. Die moeten ruimschoots aanwezig zijn. De systemen moeten zo krachtig gemaakt kunnen worden als nodig is voor de gebruikers. Dat betekent dus veel mogelijkheden voor extra geheugen, maar bijvoorbeeld ook dual-socket-opties.

Ontwikkeld voor (onder andere) data science

Met de Z by HP workstations richt HP zich zoals gezegd op de zwaardere gebruiker. Deze zijn in veel sectoren van de markt te vinden. Denk hierbij aan media en entertainment, oil and gas, maar bijvoorbeeld ook de wetenschappelijke kant van de markt. Dat betekent dus ook behoorlijk wat verschillende form factors. In de ene omgeving is het belangrijker dat een workstation niet al te groot is dan in de andere, om een voorbeeld te noemen.

Een groeimarkt voor HP voor hun Z by HP workstations is data science. Op zich is dat niet zo gek, want vrijwel iedere sector gaat steeds meer met data doen. Dan volgen data science en de daarbij horende data scientists daar vrij kort achter. Data scientists vind je dan ook in vrijwel alle sectoren die HP op het oog heeft met deze workstations.

Data scientists hebben echter niet alleen goede en krachtige hardware nodig. Ze gebruiken ook andere software dan je standaard op een workstation tegenkomt. Vandaar dat HP samenwerkt met de leveranciers van die software om de drivers te optimaliseren. De prestaties moeten in Linux en Windows immers even goed zijn. Het idee is dat je dit zelf niet meer hoeft te optimaliseren en in te richten. Ga je dus aan de slag met ML-toepassingen, dan richt HP dit al in de fabriek in voor je. Je kunt dus als het ware meteen vol aan de slag nadat je de workstation hebt ingeschakeld.

Tijdens een gesprek met Edgar Luten, Area Category Manager voor onder andere workstations bij HP, geeft hij het pakket OmniSci als voorbeeld van een pakket waarop HP de workstations kan voorbereiden. Dit is een zogeheten Accelerated Analytics Platform, waarmee je in een keer miljoenen rijen data in kunt laden in een Nvidia grafische kaart. Daarna kun je de dataset razendsnel verkleinen tot het gewenste formaat. Hiermee heb je als data scientist het beste van twee werelden te pakken. Je kunt aan de slag met de volledige dataset, maar komt toch snel tot het gewenste resultaat.

HP Z Data Science Software

Naast het voorbereiden van de hardware op specifieke software, levert HP ook software mee op Z by HP workstations. Het bedrijf heeft met HP Z Data Science Software namelijk een verzameling open-source software samengesteld. HP heeft hierbij gekozen voor de meest gebruikte softwarepakketten binnen de communities waar het zich op richt. Het is allemaal open-source software, dus er is geen gedoe met licenties als je de software wilt installeren.

HP Z Data Science Software moet je vooral zien als een extra service richting klanten vanuit HP. Er worden geen specifieke optimalisaties voor doorgevoerd zoals we hierboven hebben besproken. Wel test HP alle software vooraf. Er zitten dus geen softwarepakketten tussen die niet of niet goed werken in combinatie met de workstations. Belangrijk is vooral dat HP je kan adviseren welke open-source software je kunt gebruiken. Zo stel je workstations samen die je meteen kunt inzetten na levering. Ook als je als organisatie voor het eerst wat serieuzer van start gaat met data science, kun je zo eenvoudig van start.

Waarom niet gewoon naar de cloud?

Als je het hebt over zware workloads, het ontwikkelen van applicaties en het analyseren van veel data, dan ontkom je er niet aan om het over de cloud te hebben. Dat is tegenwoordig immers de plek waar je oneindig schaalbare resources kunt afnemen. Waarom zou je dan nog voor een (on-prem) workstation uit de Z by HP-lijn kiezen? Dat kan toch nooit de prestaties van de cloud evenaren?

De werkelijkheid ligt echter een stuk genuanceerder, horen we van Luten. Zeker na de introductie van de laatste generatie Nvidia-GPU’s kun je ook on-prem op workstations veel meer met data science aan de slag. In die grafische kaarten zit namelijk ondersteuning voor RAPIDS-libraries en API’s. Deze zijn specifiek gericht op gebruik voor AI en data science-toepassingen. Systemen die gebruikmaken van dat type kaarten, kunnen zich prima meten met een instance in de cloud.

Om dit laatste te illustreren ontvingen we een benchmark van Intellerts, een data science partner van HP, dat een platform heeft voor AI en data science. In die zware benchmark vergelijkt het een HP Z8 G4 van om en nabij 30.000 dollar met een EC2-instance in AWS. Hieronder zie je de vergelijking die men heeft gemaakt:

De rekenkracht van de GPU’s, CPU’s en werkgeheugen in deze vergelijking is globaal gelijk. De initiële kosten van het systeem van HP is uiteraard vele malen hoger, maar die hoef je maar een keer te doen. Na een maand of zes heb je de investering al terugverdiend. Voor de langere termijn kan het dus zeker lonen om de initiële hoge investering te doen. We gaan er hierbij wel vanuit dat je na zes maanden niet weer een nieuwe workstation nodig hebt, omdat die net weer iets sneller is. Je moet wel vooraf in kunnen schatten dat je het systeem lang genoeg gebruikt om het te laten renderen.

Hieronder zie je hoe lang het volgens de berekeningen van Intellerts duurt voor het HP Z8 G4 workstation dat ze vergelijken met een EC2-instance terugverdiend is:

Meer flexibiliteit met een workstation

Investeren in een workstation kan dus op termijn duidelijk slimmer zijn dan investeren in de cloud, zoveel is duidelijk. De financiële component is echter niet de enige reden waarom je een dergelijke investering ten minste zou moeten overwegen als je met data science aan de slag gaat. Je maakt er je processen ook flexibeler mee. Zeker in de testfase van een data science project, als je druk bezig bent om een algoritme te schrijven, is het prettig als je dat in een gecontroleerde on-prem omgeving kunt doen. Ga je aan de slag met zeer gevoelige data, dan is een on-prem oplossing eveneens een goed alternatief voor de cloud. Tot slot gaat er ook steeds meer data richting de cloud, waardoor de bandbreedte een probleem kan worden. Dan is het handig als je niet alle data naar de cloud hoeft te sturen. Dit is zeker het geval als je realtime data wilt analyseren.

Een workstation zoals de modellen in de Z by HP-lijn is overigens niet altijd de beste keuze. Als een algoritme eenmaal af is, kun je ervoor kiezen om deze vervolgens in een cloudomgeving aan het werk te zetten. Of je kiest voor andere eigen servers elders in je infrastructuur. Dan kun je het workstation weer voor een volgend project gebruiken.

Uiteindelijk is een workstation dan ook vooral een nuttige toevoeging op andere on-prem servers en de cloud, geeft Luten aan. De ROI is vrij goed te maken, zagen we hierboven al, en je kunt er dingen mee doen die je met de cloud niet kunt of liever niet wilt doen. HP doet er in ieder geval veel aan om de drempel om een workstation in te zetten voor data science doeleinden zo laag mogelijk te maken. Het levert systemen die uitgebreid getest zijn, geoptimaliseerd zijn voor het gebruiksdoel en voorzien zijn van nuttige open-source softwarepakketten. Op deze manier houden workstations ook in een cloudwereld hun waarde en kunnen ze zorgen voor een optimale balans in de IT-infrastructuur.