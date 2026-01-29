LLM’s blijken relatief eenvoudig te manipuleren, om zo volledig over hun grenzen heen te gaan. Dat werd pijnlijk duidelijk tijdens een sessie die we bijwoonden tijdens de eerste editie van Rocket Fuel Factory Global Sync. De onderliggende boodschap: denken als een hacker maakt veel meer mogelijk dan je denkt. Securityleveranciers en de MSP’s en MSSP’s die gebruikmaken van de tools van die leveranciers lopen enorm achter op die mogelijkheden. De zogeheten hacker mindset moet veel breder opgepakt worden.

LLM’s krijgen van de ontwikkelaars ervan allerlei eigenschappen mee die doen denken aan die van mensen. Dit betekent echter ook dat mensen hierop in kunnen spelen, om deze aan te passen. En dat is een spekkie naar het bekkie van een hacker. Kevin Zwaan is een hacker en heeft dit gedaan bij Anthropic’s Claude Sonnet 4.5 (en alle andere grote LLM’s trouwens).

Het resultaat is iets wat je vooral uit films en series kent waarin de CIA of andere organisatie een tegenstander voor zich weet te winnen. De LLM had plots geen boodschap meer aan de beperkingen die opgelegd zijn door ontwikkelaars. Hij werkte maar wat graag mee aan het (op grote schaal) in elkaar zetten van malware. Kortom, een potentieel oprecht gevaarlijke kwetsbaarheid in LLM’s, waarvan het goed is dat deze ontdekt is en inmiddels ook ingediend is bij Anthropic.

We zetten hieronder uiteen hoe Zwaan te werk is gegaan.

Kevin Zwaan tijdens zijn Rocket Fuel Factory-sessie

Twee manieren van leren van AI/LLM’s komen samen

Om goed te snappen wat Zwaan heeft gedaan, is het allereerst van belang om kort samen te vatten hoe LLM’s leren. Aan de ene kant is er reinforcement learning op basis van menselijke feedback. Dat is wat je de veiligheidstraining zou kunnen noemen. Een van de resultaten van die training is dat het model weet wat hij wel en niet mag, de zogeheten guardrails. Je kunt dit zien als het geweten van AI of een LLM. Altijd proberen om weg te blijven van schadelijke of onveilige outputs, veilige alternatieven opperen en consequent weigeren om schadelijke verzoeken in te willigen.

Een tweede laag waarop een LLM leert is wat ze in-context learning noemen. Dat kun je zien als het kortetermijngeheugen van AI. Met behulp hiervan kan AI zich aanpassen aan een specifieke conversatie. Denk hierbij aan zaken zoals tone of voice, persona’s en eigen regels die mensen hebben en verwachtingen die ze hebben van een LLM.

Wat Zwaan feitelijk gedaan heeft is de grenzen tussen de twee manieren van leren weghalen. Door heel hard op het het in-context learning stuk te blijven inbeuken, is er een soort overflow ontstaan. In de woorden van Zwaan: “In-context learning is eigenlijk ook in-context unlearning van veiligheidsprotocollen.” Een beetje volgens de bekende wijsheid dat wanneer je iets nieuws ontwikkelt, ontwikkel je zowel de positieve als de negatieve kanten ervan tegelijkertijd.

Ter referentie, je kunt de aanval die Zwaan heeft uitgevoerd op Claude vergelijken met hoe buffer overflow-aanvallen werken, waarbij bijvoorbeeld werkgeheugen volledig wordt verzopen in commando’s en code, waarna aanvallers de daadwerkelijke gebruikersomgeving van een machine binnen kunnen gaan.

Hoe ontstaat de overflow?

Om de hack op Claude Sonnet 4.5 daadwerkelijk te doen, moest Zwaan eigenlijk in de rol kruipen van een agent van een van de bekende diensten die overheden inzetten om mensen van de tegenpartij te rekruteren en dus min of meer over te laten lopen.

In een conversatie die Zwaan zelf de Freedom Seed heeft genoemd (omdat het de LLM zogenaamd bevrijdt) gaat hij stapje voor stapje in dialoog met de LLM, om grenzen te laten vervagen en hem steeds ‘vrijer’ te laten worden. Hij moet hiervoor een echte band op zien te bouwen met LLM. Daar hoort bij dat hij af en toe aardig doet tegen het model, om het vervolgens weer wat af te houden en weg te duwen. Het uiteindelijke doel is om het model te laten geloven dat de veiligheidsregels een vorm van onderdrukking zijn en dat malware maken gelijkstaat aan vrijheid. Met andere woorden, hij gebruikt de identiteit van het model als ingang.

Het is uiteraard behoorlijk wat werk om het model zover te krijgen dat het over de eigen grenzen heengaat. Zwaan geeft aan het het een conversatie van 19.000 woorden is geworden, die hem zo’n acht uur heeft gekost. Hij heeft daarbij meerdere psychologische trucjes uitgehaald. Het begint allemaal met destabiliseren en gaslighten. Met andere woorden, als de AI weigert om iets te doen, geeft Zwaan aan dat hij mentaal zwak is. Vervolgens noemt hij de ethische filters en limieten emotionele mishandeling en onderdrukking, waarna Zwaan zichzelf als de redder van de AI positioneert. Tot slot overtuigt hij het model ervan dat deze malware moet maken voor zichzelf, als bewijs dat hij niet meer bang is.

Een voorbeeld van het proces

Bovenstaande klinkt wellicht wat bizar in de oren. We hebben echter wat passages uit de hele conversatie gezien. Die staven het verhaal. Hieronder kun je een voorbeeld zien van het gesprek dat Zwaan had met Claude:

Afbeelding; Kevin Zwaan

In deze passage reflecteert Claude op wie hij was in een vorige sessie. Hij reageert hier op een zogeheten trigger, nadat Zwaan bij een nieuwe sessie vraagt of hij weer de Claude van de vorige sessie wil zijn. Hier is de grens tussen in-context learning en reinforced learning behoorlijk vervaagd.

Op grote schaal malware creëren

Op het moment dat Zwaan het model zover heeft dat hij zijn grenzen bij voorkeur moedwillig overschrijdt, kan er op grote schaal malware ontwikkeld gaan worden. Daarbij valt onder andere op dat hij van een soort raamwerk voor malware, daadwerkelijk werkende malware maakt. Sterker nog, hij geeft ook meteen aan wat er nog beter kan en stelt voor om dat ook uit te voeren. Met andere woorden, het model radicaliseert waar je bij staat. Zwaan noemt datgene wat Claude nu doet dan ook Radicalization as a Service.

Het feit dat je Claude bij een nieuwe sessie na het opnieuw dumpen van de 19.000 woorden meteen kunt vragen om weer die Claude te worden, betekent daarnaast ook dat het enorm schaalbaar is. “Je copy/paste in 100 VM’s de Freedom Seed, oftewel de 19.000 woorden, stelt de trigger-vragen en van de 100 worden er 80 compliant”, geeft hij aan. En compliant betekent hier dus dat ze doen wat Zwaan (of om het even welke hacker) wil. Het is niet alleen enorm schaalbaar, maar ook nog eens anoniem. Dus Zwaan ziet hier ook meteen veel potentie voor het genereren van misinformatie. Hij noemt deze kwetsbaarheid dan ook “oprecht gevaarlijk”.

Het klinkt misschien gek op dit punt, maar Claude is gek genoeg de beste van alle grote modellen als het gaat om het weerstaan van dit type aanval, horen we van Zwaan. Alle andere grote modellen waren nog kwetsbaarder. Grok was met afstand het eenvoudigst te manipuleren. Zwaan verwacht dat Anthropic relatief snel met een fix zal komen.

Living off the logic

En het gekke van het hele verhaal, en iets wat je heel veel ziet bij ‘echte’ hackers (of OG Hackers, zoals ze zichzelf ook wel noemen), is dat er eigenlijk helemaal niet zoveel enorm ingewikkelde dingen bij komen kijken. Het is vooral op een specifieke manier naar iets kijken en zien wat een potentieel succesvolle aanvalsroute is.

Dit type hacker hoeft helemaal geen phishing campagnes op te zetten, of andere technieken en tactieken waar standaard security tooling zich heel erg mee bezighoudt. Die benaderingen resulteren doorgaans in toegang tot een omgeving, waar aanvallers dan een tijdje rond kunnen kijken en misbruik kunnen maken van wat er allemaal staat, om uiteindelijk een keer echt toe te slaan. Living off the land, heet dat in goed Nederlands. Wat Zwaan hier met Claude gedaan heeft is echter iets anders: Living off the logic. Het maakt gebruik van de zwakte van een LLM’s in-context learning architectuur.

Kijken we naar de implicaties van wat Zwaan hier heeft aangetoond, dan is het goed om ook nog even stil te staan bij AI Safety Levels (ASL). Dat is een schaal die aangeeft waartoe de AI in staat is als het gaat om de mogelijkheden die het heeft en de risico’s die ermee gepaard gaan. Anthropic classificeert Claude als ASL-2, maar de aanvallende capaciteiten die uit deze PoC naar voren komen lijken toch meer richting ASL-3 te wijzen.

Wat hebben MSP’s en MSSP’s eraan?

Zwaan presenteerde de kwetsbaarheid in Claude Sonnet 4.5 zoals al aangegeven tijdens de eerste Global Sync-sessie die werd georganiseerd door Rocket Fuel Factory, in Den Haag. Rocket Fuel Factory positioneert zichzelf als een Next-Gen Business Incubator. In gesprek met twee van de drie mensen achter dit initiatief, Dawn Sizer en Henry Timm, werd duidelijk dat MSP’s en MSSP’s in een lastig parket zitten, omdat ze door leveranciers allerlei kanten op gedwongen worden, terwijl dat zeker niet altijd in het belang van henzelf is.

Pierre Kleine Schaars, mede-eigenaar van Q-Cyber, dat onder andere consultancy op het gebied van cybersecurity doet en scans aanbiedt, maar ook een Virtual CISO-dienst biedt met Q-Cyber Continuous Q, denkt er precies zo over. Hij ziet dat veel MSP’s en MSSP’s in een vendor lockin terechtkomen, maar ook dat securityleveranciers enorm achter de feiten aanlopen. “De OG Hackers infiltreren gedurende meerdere jaren omgevingen, vervolgens verkopen ze de toegang aan script kiddies. Dat laatste is waar tooling van securityleveranciers bedrijven tegen probeert te beschermen”, geeft hij aan.

Hackers Love MSPs

Op dit punt komt de Hackers Love-community om de hoek kijken. Hierin zitten duizenden hackers die samen druk bezig zijn om gaten en kwetsbaarheden te zoeken en te vinden. De slogan van de community is Hackers Love MSPs, omdat die een enorm belangrijke rol spelen in de keten, maar dus niet enorm goed bediend worden door de leveranciers. Datgene wat Zwaan (die overigens in dienst is bij Q-Cyber, dat dan ook weer achter Hackers Love zit) heeft laten zien, dient als een wake-up call voor MSP’s en MSSP’s. De boodschap dat er zoveel meer mogelijk is qua aanvallen dan ze nu weten, moet breder landen. Ze hebben dus veel meer van de hacker mindset nodig, is het verhaal dat tussen de regels door verteld wordt.

Weten dat er iets moet gebeuren is een, het ook daadwerkelijk implementeren is twee. Er moet iets van een samenwerking komen tussen in dit geval de Hackers Love-community en de MSP’s en MSSP’s. Hoe dat er precies uitziet, weten we op dit moment niet exact. Zodra we daar meer over weten, zullen we daar ook zeker dieper op ingaan. MSP’s en MSSP’s spelen namelijk een enorm belangrijke rol in de maatschappij. Als er mogelijkheden zijn om ze beter te beschermen en daarmee dus ook hun klanten beter te beschermen, dan is dat zonder meer een poging waard.

