9min Security

Claude Fable 5 en Mythos 5 geblokkeerd: is AI nu te gevaarlijk?

Claude Fable 5 en Mythos 5 geblokkeerd: is AI nu te gevaarlijk?

Op de valreep van de werkweek ontving Anthropic een richtlijn vanuit Washington om toegang tot Claude Fable 5 en Mythos 5 te blokkeren voor niet-Amerikanen. De reden: een jailbreak van deze AI-modellen zou de nationale veiligheid in het geding brengen. Een volledige blokkade van het gebruik van deze twee LLM’s is het gevolg. Na jaren van waarschuwingen door AI-modelbouwers dat hun technologie bijna te gevaarlijk is om uit te brengen, is de beslissing voor hen gemaakt. Hoe nu verder? Krijgt ‘frontier AI’ de ontwikkelpauze waar velen om gevraagd hebben? En wat kan Anthropic doen om Fable 5 en Mythos 5 weer beschikbaar te stellen?

De Amerikaanse overheid zou op de hoogte zijn gekomen van één bepaalde jailbreak. Het rapport dat volgens Anthropic de jailbreak omschrijft, zou een exploitatie omschrijven die ook toe te passen is op GPT-5.5, het concurrerende model van OpenAI. Deze kent overigens ook een domeinspecifieke, zeer beperkt toegankelijke variant in de vorm van GPT-5.5-Cyber. Net als dat Anthropic Mythos 5 en Mythos Preview in Project Glasswing beschikbaar stelt, heeft OpenAI toegang tot GPT-5.4-Cyber en 5.5-Cyber beperkt tot deelnemers van het “Daybreak”-project.

Helaas weten we maar weinig over de vermeende jailbreak. Dat terzijde: alle guardrails lijken fundamenteel kraakbaar bij LLM’s, zoals we recent hebben besproken. Dit is bij zowel recente modellen van huize OpenAI als die van Anthropic gebleken. Enkel de uitleg van laatstgenoemde suggereert dat dit proces moeilijker te exploiteren is voor Fable 5 en Mythos 5.

Anthropic krijgt eigenlijk wat het wil

Anthropic is het oneens met de beslissing en zegt vóór de release van Fable 5 en Mythos 5 verschillende overheden, waaronder die van de VS, te hebben geraadpleegd om de veiligheid te garanderen. Zowel interne als externe tests zouden de beschermingsmethoden (technisch bekend als ‘guardrails’) hebben gevalideerd. Wie Fable 5 om details rondom cybersecurity, biologie en enkele andere gevoelige onderwerpen vroeg toen het model nog toegankelijk was, stuitte in de praktijk gauw op een blokkade. Opus 4.8, het Claude-model dat qua vaardigheden lager scoort dan Fable en Mythos, is voor dergelijke gevoelige kwesties een vervangend LLM.

De conclusie die we daarmee kunnen trekken is dat Anthropic een voorheen ongezien afschermingsniveau nodig achtte voor Mythos-achtige modellen, terwijl de Amerikaanse overheid die grens eerder trekt. Althans, als het om Claude gaat: de vete tussen het Pentagon en Anthropic speelt al langer en kan Fable en Mythos onder een vergrootglas hebben geplaatst. Het wordt interessant om te zien wat de Amerikaanse overheid doet als een ander AI-lab hetzelfde niveau bereikt. In principe kunnen de guardrails net zo foutgevoelig zijn als altijd voor AI-modellen geldt.

Zelfs na jaren van angstzaaierij vanuit met name Anthropic en OpenAI was een stap als deze niet verwacht. Sinds de release van ChatGPT eind 2022 hebben AI-modelbouwers vrij spel gehad als het gaat om het uitbrengen van nieuwe LLM’s met potentieel gevaarlijke gevolgen. Die gevolgen zijn overigens op allerlei manieren allang voelbaar. Denk aan de explosie aan deepfakes, overtuigende phishingmails en de gevaren van AI-geschreven code zonder altijd consequente menselijke controle. Deze problemen zijn niet door ChatGPT geïntroduceerd maar wel door de LLM-technologie erachter op zijn minst aangejaagd en gedemocratiseerd.

In zekere zin heeft Anthropic gekregen waar het lang om vroeg. Het hintte onlangs naar een pauze op de ontwikkeling van meer geavanceerde AI-modellen, of op zijn minst een mechanisme om dat te doen. Het Witte Huis heeft bewezen dat die pauze zeker af te dwingen is. AI-controle heeft eindelijk tanden gekregen. Hoewel de Europese Unie meer overkoepelende regelgeving via de EU AI Act heeft bedacht, was het gevolg veelal dat de meest geavanceerde AI simpelweg niet of niet gelijk in Europa beschikbaar was. Google Bard (nu Gemini) in 2023, enkele Llama-modellen van Meta, Apple Siri AI, voorbeelden genoeg van LLM’s of LLM-producten die regelgeving (EU AI Act of niet) zagen als een regionale blokkade. Nu blijkt een ander pad veel universeler en krachtiger, al oogt deze beslissing van de VS uiterst ad hoc.

LLM’s waren altijd te vroeg

De stap vanuit de VS kent geen predecent in de moderne tijd. Controles rondom AI hebben tot nu toe alleen gedraaid om het inperken van de export van chips, chiptechnologieën en de lithografiemachines om ze te bouwen. Vooral Nvidia en ASML zijn er al jaren bekend mee; de Veldhovense chipmachinebouwer had overigens al geruime tijd met exportrestricties te maken voordat ChatGPT was verschenen. Eerdere drastische beperkingen van geavanceerde tech stammen uit de jaren ’90 of eerder, zoals de beruchte “Crypto Wars” waarbij de FBI Pretty Good Privacy (PGP)-ontwikkelaar Phil Zimmermann onderzocht voor illegale export van munitie. Die “munitie” was een destijds geavanceerde vorm van encryptie; inmiddels is cryptografie lichtjaren verder dan PGP, met het gevolg dat een groot deel van het digitale domein zonder quantumcomputer niet zomaar te kraken is.

Het interessante aan de Fable-/Mythos-blokkade is dat het voor het eerst de beschikbaarheid van steeds geavanceerdere LLM’s aan banden legt. In de afgelopen jaren hebben verschillende AI-labs een tijdelijke voorsprong gekend met een nieuw state-of-the-art AI-model. Alleen bij storingen is de voortdurende verbetering van AI onderbroken. Nu de regelgever een beperking oplegt, heeft dit grote gevolgen. Anthropic wil juist zeer binnenkort naar de beurs; ook OpenAI heeft diezelfde ambitie. De aanname bij investeerders is tot nu toe altijd geweest dat AI zou blijven verbeteren. Als deze wegvalt, zou de vermeende bubbel weleens kunnen klappen.

Er zullen desondanks voorstanders zijn van de blokkade, of deze nu standhoudt of niet. Een AI-pauze was al na de release van OpenAI’s GPT-4 in maart 2023 de wens van verschillende techprominenten. Insiders door de jaren heen delen de wens om AI-ontwikkeling aan banden te leggen. Google Deepmind-CEO Demis Hassabis heeft zelfs veelvuldig gesteld dat hij liever LLM’s in de ontwikkelfase had gehouden voordat OpenAI de wereld liet kennismaken met diens generatieve chatbot. De wereld had er sterk anders uitgezien zonder ChatGPT, zonder een publiek beschikbaar Transformer-paper, et cetera. Die wereld is er alleen niet.

Het hek is van de dam

Het toenmalig obscure Chinese DeepSeek verbaasde vriend en vijand begin 2025 met de onthulling van R-1. Het AI-model, ‘redenerend’ net als OpenAI’s kroonjuweel o1, scoorde extreem goed op benchmarks. Bovendien: het was open-source beschikbaar, dus eenieder die de 671 miljard parameters en randzaken van DeepSeeks GitHub-pagina downloadde, had een kopie van net-niet-frontier AI te pakken. Geen enkele exportcontrole kon de geest terug de fles in plaatsen.

Inmiddels is AI-ontwikkeling verder en lijkt het erop dat de closed-source AI-spelers hun voorsprong hebben behouden. Als de VS of een andere entiteit ontwikkeling van LLM’s met vaardigheden voorbij die van Opus 4.8, GPT-5.5 en Gemini 3.1 Pro verbiedt, zal dat desondanks een tijdelijk effect hebben. Een AI-model op het niveau van het nu verbannen Fable 5 en Mythos 5 zal op den duur in open-source vorm beschikbaar zijn. Dat kan wellicht nog maanden of zelfs jaren duren, hoewel de afgelopen drie jaar ons heeft geleerd dat AI-modelbouwers een voorsprong maar kort vasthouden.

Wederom: wat als OpenAI en/of Google met een Mythos-achtig model komt? Dat lijkt bijna onvermijdelijk. Mythos was ogenschijnlijk klaargespeeld zonder een gigantische technologische doorbraak: het lijkt enkel een toepassing van verschillende bestaande, bekende technieken, trainingsmethoden en architecturen. Dat betekent dat elke AI-speler met genoeg rekencapaciteit op den duur diezelfde sprong maakt. Zodra dat geldt voor DeepSeek of een andere niet-Amerikaanse modelbouwer, hebben de restricties van Washington nog maar weinig effect.

Conclusie

De release en blokkade van Claude Fable 5 en Mythos 5 werpen een compleet nieuwe AI-realiteit op. AI-veiligheid, -governance, hoe je het ook noemt: een overheid (of, feitelijk, alleen de Amerikaanse overheid) kan de meest geavanceerde LLM ter wereld van het strijdtoneel halen. Of dat op zichzelf goed of slecht is, weten we niet. Zonder precies te begrijpen hoe de jailbreak werkt en welke gevolgen die heeft, kunnen we enkel Anthropics eerdere voorzichtigheid en waarschuwingen rondom Mythos serieus nemen. Het is niet alsof de Claude-maker dubbelzinnig was over de eigen angstzaaierij. Dat dit deels een marketingtruc lijkt, doet er nu niet toe. De PR heeft klaarblijkelijk genoeg mensen in Washington overtuigd dat een restrictie de enige manier is om AI-gedreven securitygevaren te beperken.

Het fundamentele probleem voor de Amerikaanse regering is dubbelzijdig. De torenhoge waarderingen van techbedrijven en de omzetcijfers van een partij als Nvidia of Micron draaien om de aanname dat AI continu beter wordt, en continu op grotere schaal rekenkracht vereist. Die tweede aanname is al ooit bedreigd door DeepSeek. Af en toe hebben tegenvallende nieuwe LLM’s de wind uit de zeilen van de AI-opmars genomen. Toch is dit de eerste suggestie dat AI-modellen weleens tot een bepaald plafond kunnen reiken, en wel door een kunstmatige beperking van de autoriteiten.

Helaas voor hen en wellicht voor securityonderzoekers: die beperking komt een jaar of 3,5 te laat, de levensduur van ChatGPT. Of, zo u wilt, een jaar of 9 – na de publicatie van Attention Is All You Need, het wetenschappelijk paper van Google dat de Transformer-technologie blootlegde en de weg vrijmaakte voor alle LLM’s van vandaag de dag. Hoe dan ook moeten we een Mythos van iemand anders dan Anthropic blijven verwachten; en modellen die beter zijn. Die zullen geleidelijk in de handen komen van elke gebruiker. Sommigen daarvan zullen een LLM kunnen blijven jailbreaken of zelfs ontwerpen voor misbruik en exploitatie van kwetsbaarheden. Die realiteit verandert niet.

Voor Anthropic zou een blijvende blokkade een potentiële ramp zijn. De beursgang kan mogelijk in de ijskast als er geen omweg te vinden is. Alle investeringen in de ontwikkeling van Mythos, waarschijnlijk miljarden dollars, zitten nu zonder inkomsten. Die financiële realiteit kan grote gevolgen hebben voor het sentiment rondom AI bij Wall Street. In bredere zin: wat aandelen ook doen, AI zelf is niet meer weg te denken of in te dammen, hooguit tijdelijk.