Benchmarks tonen prestatieverlies supercomputers na Spectre-patch

Dat de fixes voor Spectre en Meltdown kunnen leiden tot verminderde prestaties is ondertussen algemeen geweten. Wat is de impact op een HPC-infrastructuur, waar beveiliging vaak ondergeschikt is aan prestaties? Onderzoekers van MIT komen in een nieuw rapport met harde cijfers.

High performance computing (HPC)-systemen bieden speciale uitdagingen voor cyberbeveiliging omdat ze bijzonder gevoelig zijn voor een eventuele prestatie-impact van maatregelen die getroffen worden om de veiligheid te verhogen. Bij deze systemen wegen prestaties vaak op tegen de veiligheid, omdat ze in een afgesloten omgeving worden ingezet.

Van de mitigaties voor Spectre en Meltdown is geweten dat ze een negatieve impact hebben op de prestaties, omdat het probleem zich situeert in de basisarchitectuur van de processor. Dat werd onder meer al aangetoond voor desktop- en cloudsystemen, maar wat het precies betekent voor supercomputers werd tot nog toe niet onderzocht.


Lees ook: De vloek van Spectre: waarom blijft het jou en Intel achtervolgen?


Onderzoekers van het MIT Lincoln Laboratory namen de proef op de som. Ze voerden een reeks experimenten uit op hun TX-Green Supercomputer. De tests werden allemaal uitgevoerd op servers met Intel Xeon E5-2683 v3 Haswell-servers met 256 GB RAM. Het Lustre-opslagsysteem maakt gebruik van een 10 PB Seagate ClusterStor CS9000 storage array.

Prestatieverlies

Niet geheel onverwacht stelde het team vast dat netwerkverbindingen, schijftoegang en computerwerklasten allemaal kunnen worden beïvloed door de fixes, zowel in het besturingssysteem als in de microcode. De onderzoekers voerden hun tests uit met zowel GRSecurity-aanpassingen aan de kernel uit- als ingeschakeld.

 

  • Netwerkverbinding opzetten: “Met alle mitigaties ingeschakeld wordt de kernel ongeveer 15 procent vertraagd zonder en 21 procent met de User-Based Firewall actief. De GRSecurity-kernel wordt ook vertraagd met 15 procent zonder, maar 67 procent met de User-Based Firewall actief.”
  • Kopiëren van data: “Met alle mitigaties ingeschakeld, wordt de kernel vertraagd met ongeveer 50 procent op lokale schijf en 33 procent op Lustre. De GRSecurity-kernel wordt lokaal met 90 procent vertraagd en 33 procent op Lustre.”
  • Uitvoeren code: De aanpassingen aan de kernel hebben hier weinig impact. Er werd wel een zichtbare vertraging vastgesteld na de microcode-updates, ongeacht of de mitigaties waren ingeschakeld. “Deze vertragingen werden gemeten op 21 procent voor pMatlab en 16 procent voor TensorFlow met alle mitigaties actief, en respectievelijk 19 en 15 procent met alleen de microcode-update zonder actieve mitigaties.”

 

Vooral die laatste vaststelling is potentieel problematisch. “Dit betekent dat in systemen waar prestaties belangrijker zijn dan beveiliging – zoals in een gesloten offline systeem met een toegewezen userbase – het niet eenvoudig is om die prestaties te behouden als een BIOS-update nodig is om een ander probleem met het systeem aan te pakken”, besluiten de onderzoekers in hun paper.