De nieuwste en beste AI-modellen van Anthropic en OpenAI zijn blijkbaar te gevaarlijk om op de wereld los te laten. Claude “Mythos” en GPT-5.5-Cyber kunnen kwetsbaarheden opsporen die mogelijk al jaren of decennia onontdekt zijn gebleven. Voorlopig hebben alleen bevoegde partijen toegang. Hadrian, een securitybedrijf gevestigd in Amsterdam, laat zien dat ook de al beschikbare LLM’s het opsporen van kwetsbaarheden kunnen stimuleren. OpenHack, nu beschikbaar onder de MIT-licentie, biedt het gereedschap om precies dat te doen.
OpenHack verschijnt een week nadat Hadrian zijn LLM-ondersteunde onderzoek naar kwetsbaarheden in open-sourceapplicaties publiceerde. Een dozijn daarvan wordt gebruikt door de Nederlandse overheid. Hadrian legt uit dat het binnen enkele uren honderden problemen heeft gevonden, en dat dit niet te danken was aan een of andere enorm krachtige LLM. Het bedrijf richtte zich op wat het omschrijft als een scenario-gebaseerde workflow. In plaats van simpelweg aan een AI-model te vragen of het kwetsbaarheden in een bepaalde codebase kan opsporen, alsof men op zoek is naar algemeen schrijfadvies voor een artikel, heeft Hadrian een framework gecreëerd voor het opsporen en beoordelen van specifieke, oplosbare bugs.
Niet alleen prompt engineering
Hadrian’s uitleg van zijn methodologie is het waard om volledig te lezen. Voor onze doeleinden houden we ons bij de filosofie achter het onderzoek en de grootschalige implicaties. Het bedrijf wil de valkuil vermijden dat één enkele agent breed, onbeperkt werk afhandelt, terwijl het tegelijkertijd de vrijheid moet krijgen om allerlei mogelijke bedreigingen te verkennen. Na het in kaart brengen van het aanvalsoppervlak en het koppelen van specifieke secties aan een op AI gebaseerde “expert”, wordt elke ontdekking onderworpen aan zowel een beoordeling als een verdere analyse, waaronder een door een aparte triage-agent.
OpenHack werkt in bestaande model harnesses zoals Claude Code, Codex of Cursor. Hadrian heeft al laten zien wat zijn methodologie kan doen, waarbij de tool nu de security posture kan verbeteren voor iedereen die er gebruik van wil maken. Het is ook volledig modelonafhankelijk. Natuurlijk kunnen betere modellen taken nauwkeuriger uitvoeren of complexere kwetsbaarheden vinden, maar alle LLM’s worden systematisch ervan weerhouden te hallucineren of ongeverifieerde ontdekkingen gelijk als feiten te presenteren.
Grootte doet er niet toe (of niet zozeer als men zou denken)
We weten meestal niet direct de exacte modelgroottes van state-of-the-art (SOTA) AI-modellen van Google, OpenAI of Anthropic. Niettemin wordt, dankzij lekken en schattingen op basis van bekende, niet-comprimeerbare “Knowledge Probes”, vermoed dat Mythos en GPT-5.5 (inclusief GPT-5.5-Cyber) uit ongeveer 10 biljoen parameters bestaan. Als dit klopt (of aangenomen dat dit ook maar enigszins in de buurt komt van het werkelijke getal), legt het draaien van deze modellen een ongekende druk op AI-hardware. Natuurlijk zouden AI-labs de toegangsprijs gewoon kunnen verhogen, maar hun capaciteit is waarschijnlijk de echte beperkende factor. Even ter verduidelijking: als een bepaalde gebruiker ook tevreden zou zijn met de output van Google’s Gemini 3.5 Flash, dat naar schatting zo’n 200-300 miljard parameters groot is, zou de infrastructuur voor één Mythos of GPT-5.5-Cyber in plaats daarvan meer dan 30 gebruikers kunnen bedienen.
Dit is zowel een ruwe schatting als speculatie over modelgroottes, maar nogmaals, het punt blijft overeind, zelfs met aanzienlijk gewijzigde cijfers. Zelfs als Anthropic en OpenAI geen enkele twijfel zouden hebben over beveiligingskwesties, wat ze in de vroege dagen van de AI-hype na ChatGPT ook niet hadden, zouden basale economische overwegingen een einde maken aan een brede uitrol van deze vermeende securitykrachtpatsers.
We twijfelen eigenlijk niet zozeer aan de hype rond deze modellen. Er is bijvoorbeeld geen reden voor Mozilla om te liegen over de effectiviteit van Mythos. Dat model vond 271 kwetsbaarheden bij het bedrijf. Met name het ontbreken van valse positieven is intrigerend. Niettemin biedt OpenHack ons een tegenvoorbeeld voor de aanname dat grootte nog steeds alles overwint. Ten eerste kennen we de details van de Mythos/GPT-5.5-Cyber-architectuur niet. Het is heel goed mogelijk dat de interne onderdelen van de LLM zich op dezelfde manier gedragen als de OpenHack-tools, waardoor ze in feite securitysystemen zijn in plaats van modellen.
Slechte uitkomsten voorkomen
De afgelopen jaren zijn zowel geavanceerde AI-modellen als de open-source LLM’s, die qua mogelijkheden vaak achterblijven, complexer geworden. Eerst werden de mogelijkheden voor het verzamelen van data uitgebreid, gevolgd door een Mixture-of-Experts-architectuur, dynamisch ‘redeneren’ en agentic connectiviteit. Al deze elementen worden over het algemeen beschouwd als een onlosmakelijk deel van de nieuwste AI-modellen. Die aanname staat echter geenszins vast. De reis van de GPT-3.5 die ChatGPT aanvankelijk aandreef eind 2022 naar de huidige SOTA-modellen is er een van landroof. Basis-‘wrappers’ die simpelweg een LLM gebruikten om ze specifieke taken te laten uitvoeren, werden ingehaald door de modelaanbieders zelf. Deze laatste partijen wisten dat ze dit moesten doen om de economische voordelen van de LLM te benutten. Belangrijker nog was echter dat ze wisten dat dit de enige manier zou zijn om consistente, algemene resultaten te behalen voor nieuwe AI-toepassingen.
Bij het ontdekken van kwetsbaarheden gaat het net zo goed om het opsporen van daadwerkelijke bedreigingen als om het voorkomen van een stortvloed aan valse meldingen. Door AI gegenereerde bugrapporten verstoren het werk van Linux-kernelbeheerders door valse positieven en duplicaten van bekende kwetsbaarheden te leveren, zoals Linus Torvalds zelf onlangs zei. OpenHack maakt gebruik van een methodologie die deze bugmelders hadden moeten toepassen. Het simpelweg loslaten van een LLM op een codebase leidt tot inconsistente, generieke bevindingen, misschien zelfs als Mythos of GPT-5.5-Cyber erbij betrokken is.
Conclusie: de onderliggende aanname ter discussie stellen
In veel opzichten doet het discours rond met name Claude Mythos denken aan de begintijd van ChatGPT. Na de release van GPT-4 in maart 2023 riep een grote groep techprominenten, waaronder Elon Musk en Steve Wozniak, in een open brief op tot een pauze in “gigantische AI-experimenten”. Het is duidelijk dat Sam Altmans paniekzaaierij in die periode over zowel GPT-4 als latere modellen aansloeg. Het gepraat over een AI-pauze ebde weg, maar met name Anthropic spreidde zijn releases uit vanuit een zelfopgelegde (en zelfverklaarde) verantwoordelijkheid. OpenAI deed dit pas toen het zijn Mythos-equivalent GPT-5.5-Cyber bereikte. De onderliggende aanname is dat een soort AI-pauze noodzakelijk is, zonder dat daar zelfs maar een open brief voor nodig is.
Zoals hierboven vermeld, is de economie waarschijnlijk de belangrijkste reden om modellen op Mythos-niveau beschikbaar te stellen. Hoe dan ook, een andere aanname is dat modellen op Mythos-niveau in de toekomst vrij beschikbaar zullen zijn. Nogmaals, we hoeven niet op dat moment te wachten om het idee aan te vechten dat je Mythos nodig hebt om allerlei kwetsbaarheden te vinden.
OpenHack is een workflow om zo’n model in vaardigheid na te bootsen, waarbij dat model zich overigens intern heel goed net zo kan gedragen als die workflow. Dit betekent dat we weer terug zijn bij het ontwerpen van systemen in plaats van alleen te vertrouwen op een fundamentele technologie. Met andere woorden: het tijdperk van schaalvergroting is voorlopig voorbij, zoals voormalig OpenAI-hoofdwetenschapper Ilya Sutskever al in november aangaf.
Het tijdperk van AI-onderzoek is terug, compleet met zijn onvoorspelbare bevindingen en tijdlijnen. De rest van de technologie-industrie zal moeten denken in termen van AI-ondersteunde workflows, in de veronderstelling dat Mythos en GPT-5.5-Cyber slechts onhoudbare showcases zijn. Want zelfs als dat niet zo is, zijn ze niet noodzakelijk voor een doorbraak voor het vinden van kwetsbaarheden. Die is al gebeurd, en er waren menselijke hersenen voor nodig om die te bereiken, niet alleen een aantal AI-parameters en -tokens.