Microsoft en Intel zetten deep learning in tegen malware

Abonneer je gratis op Techzine!

Microsoft en Intel werken samen om met deep learning malware te classificeren en te bestrijden. Het onderzoeksproject STAtic Malware-as-Image Network Analysis (STAMINA) heeft in eerste testresultaten al een accuratesse van 99 procent opgeleverd.

Microsoft en het onderzoeksinstituut van chipfabrikant Intel doen gezamenlijk onderzoek naar het kunnen classificeren en vervolgens bestrijden van malware met behulp van deep learning. Het gezamenlijke onderzoeksproject maakt onderdeel uit van Microsoft’s recente pogingen om malware-detectie te verbeteren door machine learning.

STAMINA-technologie

STAMINA gebruikt een nieuwe techniek die malware samples verandert in grayscale-afbeeldingen. Vervolgens worden deze afbeeldingen gescand op textuur en structurele patronen die herleiden naar de betreffende malware samples.

Deze handelingen worden uitgevoerd in een aantal eenvoudige stappen. Eerst wordt de binary – de enen en de nullen- van dit bestand geconverteerd in een ruwe pixel datastroom. Deze 1-dimensionele stroom van pixels wordt omgezet in een 2D-foto, zodat normale beeldanalyse-algoritmes deze kunnen analyseren.

De foto wordt vervolgens naar een kleinere omvang teruggebracht. Dit voor een efficiënter gebruik van rekenkracht, zodat bronnen niet met miljarden pixels hoeven te werken. De resized foto’s worden vervolgens in een al getraind deep neaural netwerk (DNN) ingevoerd dat de afbeelding, een 2D-presentatie van de malware strain, al heeft gescand en het als schoon of geïnfecteerd heeft geclassificeerd.

Bron: Microsoft

Succesfactor van 99,07 procent

In het traject leverde Microsoft een sample van 2,2 miljoen geïnfecteerde Portable Executable (PE) file hashes om mee te testen. Hiervan werd 60 procent van de bekende malware samples gebruikt om het originele DNN-algoritme te trainen. 20 procent werd gebruikt om het DNN-algoritme te valideren. De overige 20 procent werden gebruikt om de echte tests uit te voeren.

Het resultaat dat deze tests opleverden, was dat STAMINA erin slaagde maar liefst 99,07 procent van de malware samples te identificeren en te classificeren. De fase positives bedroegen 2,58 procent. Volgens de techgigant is de nu gebruikte technologie vooral accuraat en snel met kleinere bestanden. Grotere bestanden leverden nog problemen op. Dit maakt de technologie dan ook geschikt voor applicaties van kleinere omvang dan grote, vindt Microsoft.

Flinke investeringen in ML voor malwarebestrijding

Microsoft investeert de laatste tijd veel in machine learning voor het bestrijden van malware. De techgigant gebruikt verschillende machine learning-modules in consumentensystemen en servers, zoals miljarden installs van Windows Defender. Dit zijn nu vooral client-side machine learning model engines, cloud-side machine learning model engines, machine learning modules voor het opslaan van volgorden van gedragingen of voor het opslaan van de inhoud van de files zelf.

STAMINA wordt waarschijnlijk één van die machine learning modules. De verwachting is dat deze technologie snel door Microsoft zal worden geïmplementeerd.