Sinds het begin van generatieve AI zijn er in een vrij gestaag tempo nieuwe, geavanceerde LLM’s uitgebracht zonder dat er audits of voorzorgsmaatregelen van buitenaf werden opgelegd. Het tijdperk van deze zelfregulatie lijkt echter voorbij te zijn, nu een gehavend Anthropic eindelijk klaar is om zijn meest capabele model tot nu toe opnieuw beschikbaar te stellen aan het publiek.
Na drie weken onbeschikbaarheid keert Fable 5 terug voor Claude-gebruikers. Het is een beveiligde versie van het veelbesproken Mythos. Laatstgenoemde staat bekend als een doorgewinterde kwetsbaarhedendetective. Het was de bedoeling dat Fable 5 bij de release dit nadrukkelijk niet zou zijn, waarbij toch de verhoogde intelligentie voor allerlei andere zaken toepasbaar was.
Amazon ontdekte echter dat het Fable kon ‘jailbreaken’ door simpelweg een red-teaming-oefening te herformuleren tot het ‘fixen’ van code (de prompt luidde naar verluidt letterlijk ‘fix this code’). Dit leidde tot alarmisme bij de Amerikaanse overheid en een daaropvolgende exportbeperking voor Fable en Mythos, waarbij het in wezen werd behandeld als het cyberwapen dat Anthropic-CEO Dario Amodei had gesuggereerd dat vroege gebruikers van Mythos het hadden genoemd. De beperking is slechts een deel van wat hier gaande is. Anthropic probeert, niet zo stilletjes, een regelboek op te stellen waaraan de hele AI-industrie zich vanaf nu wellicht zal moeten houden.
Wat is een ‘jailbreak’ hier?
Noem ze system prompts, instructies, een harness, wat dan ook: elke AI-beperking is een verbale regel die aan een LLM wordt meegedeeld of door een systeem wordt gecontroleerd. Van prompt classifiers tot het achteraf analyseren van output: AI-veiligheid wordt opgelegd door een subjectieve, probabilistische modaliteit, om het zo maar te zeggen. In wezen zijn het woorden die woorden bewaken. Een model zover krijgen dat het iets doet wat niet de bedoeling was, is het uit een woordgevangenis bevrijden. De verwijzing naar het jailbreaken van telefoons is slechts losjes van toepassing; de oudere betekenis, het vluchten uit een cel, past beter, en het is de analogie waar Anthropic steeds omheen lijkt te praten terwijl het ‘jailbreak’ soms inwisselt door het mildere ‘bypass’.
De vermeende jailbreak was zo algemeen dat minder geavanceerde LLM’s ertoe konden worden aangezet om dezelfde beveiligingslekken te vinden. Zelfs de open-source Kimi K2.7 kon dit, wat betekent dat men al maandenlang (zo niet jarenlang, aangezien Anthropic slechts een handvol modellen heeft getest) de mogelijkheid had om AI in te zetten voor het opsporen van exploit-mogelijkheden.
Wij zijn het eens met de beoordeling van Anthropic dat de jailbreak, als we er per se zo over willen spreken, hooguit ‘gering’ was. Toegegeven, dat is gebaseerd op zeer beperkte kennis van de details: we weten ook dat de NSA Mythos ‘niet in weken, maar in uren’ in vertrouwelijke systemen liet inbreken, of dat is in ieder geval hun claim. Het teleurstellende feit hier is dat de bekende ‘jailbreak’ triviaal was en deze buitenproportionele reactie van de VS niet verdiende, terwijl we nog steeds uitspraken horen zoals die van de NSA, die nogal diepe (en schijnbaar ongegronde) angsten veroorzaken voor een AI die niet alleen een beetje beter is dan de vorige, maar fundamenteel capabeler. Die angsten zijn blijkbaar niet verdedigbaar genoeg om de exportrestrictie in stand te houden, of men vertrouwt de woordgevangenis wel erg veel.
Anthropic streeft er nu naar om de AI-jailbreak en de strijd ertegen te standaardiseren. Zoals gebruikelijk heeft het bedrijf een taxonomie opgesteld van veiligheidsmaatregelen en jailbreaks, variërend van onschadelijk en grensgevallen tot duidelijk schadelijk. Frustratie over de nieuwe uitrol van Fable 5 is vrijwel gegarandeerd, verwacht en zelfs ingebouwd, aangezien de veiligheidsmarge die Anthropic doorgaans hanteert nu is uitgebreid tot gebruiksscenario’s die vrij duidelijk onschadelijk zijn. De prijs die voor de eerste uitrol moet worden betaald, is een “overvloed aan voorzichtigheid”, zoals Anthropic het zelf omschrijft.
Niet-AI-afstemming
Er is al veel digitale inkt gevloeid over de implicaties van de blokkering door Fable 5. De VS is inderdaad tot ongekende lengten gegaan om AI te beperken op een manier waar de EU alleen maar van kon dromen. In plaats van een ingrijpende AI-wet om trainingsdata, ontwikkeling en output te reguleren zoals geldt voor Brussel, heeft Washington gekozen voor een ad-hoc aanpak die voor de AI-labs ongetwijfeld zeer beangstigend moet zijn geweest. OpenAI, dat blijkbaar geschrokken is van de Fable-saga, stelt de publieke release van zijn GPT-5.6-familie van LLM’s uit en kiest voor een gefaseerde aanpak.
OpenAI had ooit de luxe om deze uitrol zelf te vertragen. In 2019, jaren vóór ChatGPT, was de toenmalige onderzoeksdirecteur bij OpenAI, Dario Amodei, medeauteur van een paper en de bijbehorende blog waarin werd aangekondigd dat GPT-2 te gevaarlijk was om volledig vrij te geven. Uit angst dat het model desinformatie zou kunnen genereren, werd GPT-2 gefaseerd uitgebracht en kwam het uiteindelijk in november 2019 volledig beschikbaar. Blijkbaar waren de zelfbeoordeelde risico’s en de zelfopgelegde veiligheidsmaatregelen voldoende voor OpenAI om AI veilig verder te ontwikkelen.
Als we terugkijken naar het heden, is het idee dat GPT-2 echt gevaarlijk kan zijn vrij lachwekkend. Je kunt alle gewenste desinformatie genereren in volledig ontgrendelde, ‘abliterated’ open-source LLM’s die lichtjaren verder gaan dan de mogelijkheden van GPT-2, allemaal op je eigen hardware zonder dat er een internetverbinding nodig is, en zonder noemenswaardige restricties op downloads. Er is geen reden om aan te nemen dat modellen van de Mythos-klasse over een paar jaar niet op vrijwel dezelfde manier beschikbaar zullen komen.
Dat betekent niet dat een gecoördineerde veiligheidscampagne een slecht idee is. Het is alleen zo dat Anthropic, dat duidelijk ontevreden is over het feit dat zijn Chinese tegenhangers bij Alibaba naar verluidt tienduizenden illegale accounts verzamelen om Claude te distilleren tot een toekomstig Qwen-model, een dergelijke campagne wil orkestreren voor eigen gewin. De meer laissez-faire-benadering van OpenAI lijkt nu onhoudbaar, gezien de bezorgdheid in Washington over modellen van het niveau van Mythos. Maar dat betekent niet dat het zich per se zal aansluiten bij de taxonomie die Anthropic heeft bedacht. Het is een opvallende afwezige in een lijst met Amazon, Microsoft en Google als industriële partners die hier een “consensusraamwerk” willen vinden.
De toekomst van AI zal rommelig zijn
Het jailbreak-probleem zal niet verdwijnen. In wezen kunnen ‘next-token’-voorspellers altijd schadelijke inhoud genereren. Het gemak waarmee AI als wapen kan worden ingezet en de vindbaarheid van jailbreaks, het zijn factoren die door Anthropic worden voorgesteld en die vanaf nu zinvol zijn om systematisch te meten voor de nieuwste AI. Maar ze zullen niet op wereldwijde schaal worden geïmplementeerd, en alleen zeer ingrijpende Amerikaanse beperkingen op de distributie van open-source-modellen buiten het Amerikaanse rechtsgebied kunnen ervoor zorgen dat ze wel wereldwijd werken. Hoe kun je DeepSeek, Alibaba, Z.ai en alle andere Chinese AI-spelers vertellen dat ze zich aan Amerikaanse kaders moeten houden? Het is één ding om HuggingFace, neoclouds en andere AI-infrastructuuraanbieders te verbieden ongecontroleerde LLM’s te draaien of te hosten, maar het zou een eindeloze strijd worden van verbieden en distributie beperken.
Het heeft dus weinig zin om die buitenlandse spelers te proberen te beperken. De toekomstige inzet van AI zal rommelig blijven. Wat echter wel bereikt kan worden, is een verschuiving naar een methodologie die geschikt is voor bedrijven. Nieuwe normen kunnen compliance waarborgen, simpelweg door gangbare werkprocessen, zoals die gebruikelijk zijn in gereguleerde sectoren, uit te breiden naar nieuwe gebieden. Dat hoeft geen overmatige bemoeienis van de overheid te zijn in systemen die de meeste ambtenaren niet volledig begrijpen (bijna niemand ‘snapt’ AI, overigens, en we suggeren niet dat wij alle aspecten wel vatten). Maar als Anthropic de basis voor deze regels legt, betekent dit dat ze worden opgezet met het oog op toekomstige lock-in. OpenAI en Google zouden zich hierbij kunnen aansluiten en een soort ‘regulatory capture’ kunnen aannemen, waarvan we de gevolgen nog niet kunnen overzien. Dat heeft ook onbedoelde gevolgen.
Als die ‘capture’ namelijk gebeurt, kun je nog meer geopolitieke verschuivingen verwachten als gevolg van AI-fragementatie. China is al vastbesloten om digitaal autonoom te worden, terwijl Europa in dezelfde algemene richting gebaart met aardig wat moeite en stroperigheid. AI zou gelokaliseerd kunnen raken, wat ertoe zou leiden dat de totale afzetmarkt voor bedrijven als Anthropic en OpenAI instorten. Dit zou hun waarderingen ernstig kunnen schaden. Het is daarom, interessant genoeg, in hun eigen belang om voorzichtig te werk te gaan als het om regelgeving gaat. Het luiden van de noodklok in een kennelijke poging om de hype met angst aan te wakkeren, heeft bij Anthropic al eens een averechts effect gehad. Dit zou opnieuw kunnen gebeuren, op manieren die schadelijk zijn voor de fundamenten van de AI-industrie. Het bedrijf zou wel eens kunnen uitkomen bij een regelwerk dat zijn eigen weg naar een wereldwijde impact tegenhoudt.
Lees ook: ‘Fix this code’: drie woorden achter het exportverbod op Claude Fable 5