6min

Dat AI door zowel cybercriminelen als cyberbeveiligers kan worden gebruikt is geen verrassing. De criminelen kunnen hun aanvalsmethoden ermee ondersteunen, de beveiligers kunnen hun verdediging ermee versterken. Veel minder bekend is dat de AI-systemen zelf – en data die daarvoor gebruikt worden – zorgen voor een reeks nieuwe securityuitdagingen. NCC Group en Fox-IT hebben hier in de praktijk onderzoek naar gedaan.

Tools zoals ChatGPT, die behoren tot de zogeheten Large Language Models (LLM’s), worden getraind met enorme databronnen. Deze modellen kunnen worden misbruikt voor cyberaanvallen. Denk bijvoorbeeld aan het identificeren van zwakke plekken in softwarecode om vervolgens op basis daarvan een exploit te genereren. Nu proberen LLM’s meestal te voorkomen dat ze dit soort kwaadaardige of onethische uitvoer genereren – ze melden aan de gebruiker dat ze de vraag niet willen beantwoorden. Met teksten ligt dat lastiger. Met LLM’s kan iedereen, dus ook schrijvers van phishing e-mails, de spelling, grammatica en toon van de tekst in hun e-mails verbeteren. Dat weten de ontwikkelaars van op LLM’s gebaseerde chatbots ook. Ze proberen daarom om het expliciet genereren van phishingteksten te voorkomen.

Maar het valt niet mee om de intentie achter een bericht te detecteren als de gebruiker zo handig is om niet specifiek om een phishing tekst te vragen, maar de vraag formuleert als een marketing- of beveiligingstekst. Cybercriminelen werken samen aan manieren om dit soort controls in ChatGPT te omzeilen en we hebben al advertenties gezien voor een LLM, WormGPT, die zonder deze controls is ontwikkeld.

Deepfakes, crypto-analyse en side chain-aanvallen

Ook spear-phishing kan worden ‘verbeterd’ met behulp van generatieve chatbots, waarmee aanvallers snel berichten kunnen genereren voor specifieke doelwitten. Door verbeteringen in de snelheid en kwaliteit van deepfakes zijn ze te gebruiken voor social engineering-aanvallen door de stem en zelfs het gezicht van vertrouwde mensen na te bootsen in telefoon- of videogesprekken. Deze AI-toepassingen vormen een grote dreiging, ze zijn al met succes gebruikt door cybercriminelen en activisten voor zowel financiële als politieke doeleinden, zoals The Guardian en Forbes schreven.

Crypto-analyse en side channel aanvallen (aanvallen die gebruikmaken van informatie van een fysiek systeem, zoals timing, stroomverbruik, elektromagnetische emissie, etc.) vereisen de verwerking van grote hoeveelheden zeer nauwkeurige gegevens om nauwkeurig veranderingen in een systeem te meten (zoals stroomverbruik, herkomst en bestemming van versleutelde data) om de effectiviteit van cryptografie te verminderen. Machine Learning-modellen kunnen deze gegevens verwerken en events identificeren die, met voldoende voorbeeldinformatie, gebruikt kunnen worden om cryptografische sleutels te achterhalen. Software- en hardwarebenaderingen zoals ‘constant time programming’ en het gebruik van filters op elektriciteitsleidingen kunnen helpen om deze complexe aanvallen te beperken.

Dreigingen voor AI-systemen

Naast het gebruik van AI bij de verdediging of aanval van systemen, hebben AI-systemen zelf te maken met nieuwe, specifieke dreigingen die niet noodzakelijkerwijs relevant zijn voor reguliere IT-systemen. In de praktijk zijn inmiddels daadwerkelijke aanvallen op machine learning systemen aangetoond door onderzoek of zijn ze ‘in het wild’ waargenomen. Deze aanvallen sluiten elkaar niet uit en het is best mogelijk dat geavanceerde tegenstanders diverse soorten aanvallen gebruiken. Hieronder zijn een aantal dreigingen voor AI-systemen:  

Data Poisoning – Het gedrag van het model wordt gestuurd met behulp van vergiftigde trainingsdata om de doelen van een aanvaller op de een of andere manier te ondersteunen.

Kwaadaardig model – Het modelbestand zelf (het bestand dat is gemaakt als resultaat van het trainingsproces en dat vervolgens wordt uitgevoerd) bevat kwaadaardige code en wordt uitgevoerd in de trainings- of live-omgeving. De kwaadaardige code verandert het gedrag van het model of probeert aangrenzende systemen te compromitteren.

Verstoring van de tegenstander – De aanvaller probeert de invoer te manipuleren om zo het model te dwingen een gewenste reactie te geven. Dit type aanval is op grote schaal gedemonstreerd in toepassingen zoals beeldherkenning en heeft een nieuw leven gevonden in de vorm van aanvallen op LLM’s en andere generatieve AI-systemen. Hierbij probeert een aanvaller de AI aan te zetten tot het genereren van een uitvoer die juist voorkomen zou moeten worden, bijvoorbeeld door de bedoelde gebruikssituatie te negeren of bedreigend of beledigend materiaal te genereren.

NCC Group heeft het aanbrengen van een achterdeur in een gezichtsherkenningsmodel onderzocht en heeft aangetoond dat de vergiftigde trainingsdata resulteerden in een model dat onjuiste matches maakte tussen vergiftigde afbeeldingen, terwijl voor niet-vergiftigde afbeeldingen de prestaties hetzelfde bleven.

Wegsluizen van trainingsgegevens – De data voor AI-systemen kunnen, afhankelijk van de toepassing, om verschillende redenen gevoelig zijn. Ze kunnen persoonlijke gegevens, auteursrechtelijk beschermde gegevens of bedrijfsgeheimen in individuele records bevatten. Daarnaast zijn de kwantiteit en kwaliteit van de trainingsgegevens bepalend voor de effectiviteit van het AI-model, dat een bedrijf concurrentievoordeel kan opleveren en daarom in zijn geheel gevoelig voor aanvallen is.

Trainingsdata zijn gevoelig voor reguliere aanvallen die erop gericht zijn deze data weg te sluizen en zijn daarnaast gevoelig voor AI-specifieke aanvallen die erop gericht zijn trainingsgegevens weg te sluizen door middel van modelreacties. Dit soort aanvallen kunnen bijvoorbeeld proberen te bevestigen dat specifieke data zijn opgenomen in de set met trainingsdata of ze kunnen een generatief model manipuleren om de trainingsdata als antwoord te leveren.

Model stelen – De output van het trainingsproces, een getraind model, is de som van vele tijd- en middelenintensieve processen. Voor het verzamelen van gegevens, het opschonen ervan, het labelen, het uitvoeren van trainingen en het meten van prestaties zijn specialisten nodig met toegang tot hardware en software die is ontworpen voor AI-toepassingen. Aangezien het model een concurrentievoordeel kan opleveren voor het bedrijf dat het heeft ontwikkeld, loopt het risico op industriële spionage door directe diefstal of door het maken van een benaderende kopie door gevolgtrekking.

Overmatching – Een aanvaller kan meerdere systemen compromitteren door een ‘masterprint’ te gebruiken, die is ontstaan als dezelfde invoer of een deel ervan is opgenomen in de trainingsdatasets voor deze systemen.

Inferentie door covariantie – Door de outputs van een machine learning systeem in de loop van de tijd te monitoren, kan een aanvaller de inputs van een specifieke gebruiker afleiden en zo toegang krijgen tot mogelijk gevoelige informatie over die gebruiker.

Denial of Service – De aanvaller kan de prestaties van het AI-systeem verlagen om legitieme gebruikers de toegang te ontzeggen of om de organisatie schade toe te brengen, bijvoorbeeld hoge kosten voor rekenkracht of niet in staat zijn om klanten te bedienen. De aanvaller kan dit bereiken door inputs te benutten die het gebruik van resources (CPU, opslag, netwerkverkeer etc.) sterk doen toenemen, een vorm van asymmetrische aanval, of door het systeem simpelweg te overspoelen met verzoeken.

Model misbruiken – Gebruik van een model buiten het beoogde doel is vooral relevant voor generatieve AI waarbij de gebruiker kan vragen om het genereren van onethisch of crimineel materiaal (zoals hierboven beschreven). Maar het is ook relevant voor andere vormen van AI, bijvoorbeeld doelbewust gebruik van een gezichtsherkenningsmodel dat inbreuk maakt op de privacy van mensen door hen te volgen zonder dat de juiste controls actief zijn.

Een bijzondere categorie is gebruik van AI voor cyberfysieke systemen, zoals autonome voertuigen. Hier kunnen beslissingen van een AI-algoritme leiden tot fysieke acties met ingrijpende gevolgen voor de veiligheid. Om een aanvaardbaar risiconiveau te kunnen bepalen voor het beoogde gebruik van het systeem is diepgaande analyse, verificatie en bewijs nodig van het ontwerp.

Veiligheid

Het blijft moeilijk om te begrijpen waarom een AI-algoritme tot een bepaalde uitkomst is gekomen. Deze modellen bestaan uit vele miljoenen parameters die worden ontwikkeld op basis van een combinatie van algoritmeontwerp en trainingsdatasets. Getrainde modellen kunnen gevoelig zijn voor onvoorspelbare randgevallen waarbij ze falen en er zijn overfittingsrisico’s waarbij modellen weliswaar goede prestaties laten zien tijdens de training maar hun beslissingen niet kunnen generaliseren naar live gegevens wanneer ze eenmaal zijn ingezet.

De transparantie en verklaarbaarheid van AI-systemen moet daarom verbeterd worden, evenals de manier waarop ze zich gedragen en beslissingen nemen. Dit helpt om de waarschijnlijkheid van veiligheidsrisico’s te kwantificeren door te begrijpen welke input leidt tot gebeurtenissen met gevolgen voor de veiligheid.

Lichtpuntje

Een lichtpuntje is dat al in 2020 een groep deskundigen op het gebied van AI, veiligheid, risico’s en verificatie een document heeft gepubliceerd (pdf) waarin mechanismen worden geïdentificeerd om verifieerbare beweringen in AI-systemen te ondersteunen. In het document worden institutionele mechanismen (onafhankelijke auditing, red teaming, bounties en incidentrapportage), softwaremechanismen (audit trails, interpreteerbaarheid en technieken om de privacy te beschermen) en hardwaremechanismen (veilige hardware, zeer nauwkeurige metingen en ondersteuning voor de academische wereld) beschreven die ontwikkelaars en regelgevers uiteindelijk beter in staat moeten stellen om veiligheidsclaims voor AI-systemen te verifiëren.

Dit is een ingezonden bijdrage van Fox-IT. Via deze link vind je meer informatie over de mogelijkheden van het bedrijf.