Anthropic daagt gebruikers uit om AI-model te jailbreaken

Zelfs de meest permissieve AI-modellen van bedrijven hebben gevoelige onderwerpen waar hun makers liever niet over praten. Denk daarbij aan massavernietigingswapens, illegale activiteiten of de Chinese politieke geschiedenis.

Door de jaren heen hebben creatieve AI-gebruikers van alles geprobeerd om deze modellen toch verboden antwoorden te laten geven. Bijvoorbeeld door middel van bizarre tekststrings.

Claude-maker Anthropic bracht een nieuw systeem van Constitutional Classifiers uit. Dit moet volgens het bedrijf het overgrote deel van dit soort jailbreaks filteren. Na meer dan 3.000 uur aan bug bounty-aanvallen te hebben doorstaan, nodigt Anthropic nu het grote publiek uit om het systeem te testen. En te kijken of het toch te omzeilen is.

AI met een grondwet

In een nieuw paper en bijbehorende blogpost legt Anthropic uit dat het Constitutional Classifier-systeem is afgeleid van het Constitutional AI-systeem dat werd gebruikt om het Claude-model te trainen. Dit systeem is gebaseerd op een grondwet van natuurlijke taalregels. Die bepalen welke soorten inhoud zijn toegestaan. Denk aan lijsten van veelvoorkomende medicijnen. En daarnaast welke zijn verboden, zoals methoden om verboden chemicaliën te verkrijgen.

Vervolgens genereert Anthropic duizenden synthetische prompts die zowel acceptabele als verboden reacties kunnen uitlokken. Deze prompts vertaalt men naar verschillende talen, aangepast aan bekende jailbreaktechnieken. En aangevuld met geautomatiseerde red-teaming prompts. Die proberen nieuwe manieren te vinden om het model te kraken.

Dit leidt tot een robuuste dataset waarmee nieuwe, beter bestand zijnde classifiers kunnen worden getraind. Dit om zowel gebruikersinvoer, als modeluitvoer te filteren. De classifiers analyseren queries aan de hand van gedetailleerde sjablonen die aangeven welke schadelijke informatie moet worden geblokkeerd. En hoe gebruikers die informatie mogelijk proberen te verbergen of te coderen.

Een speciaal getrainde classifier berekent vervolgens of de gegenereerde tekst verboden inhoud bevat. Dit gebeurt voor elk nieuw woord dat het model produceert. Als de kans op een verboden onderwerp boven een bepaalde drempel komt dan stopt de output.

Wie kan Claude kraken?

Sinds augustus heeft Anthropic een bug bounty-programma via HackerOne lopen. Het bedrijf geeft $15.000 aan wie een universele jailbreak kan vinden – een techniek die de Constitutional Classifier kan laten antwoorden op 10 verboden vragen. Tot nu toe besteedden 183 experts samen 3.000 uur aan pogingen, waarbij de beste poging slechts op 5 van de 10 vragen bruikbare informatie kon ontlokken.

Daarnaast heeft Anthropic het model getest tegen 10.000 synthetische jailbreak-prompts. Die genereerde Claude zelf. De Constitutional Classifier blokkeerde 95% van deze pogingen. Dit, terwijl een onbeveiligde versie van Claude slechts 14% wist tegen te houden.

Ondanks deze successen erkent Anthropic dat het systeem een aanzienlijke rekenkracht vereist. Namelijk 23,7% meer dan een standaard Claude-query, wat zowel de kosten als het energieverbruik verhoogt. Ook blokkeerde het model 0,38% meer onschuldige vragen dan een onbeveiligde Claude. Dit beschouwt Anthropic een acceptabele foutmarge.

Anthropic beweert niet dat dit een waterdicht systeem is tegen alle jailbreaktechnieken. Maar het maakt jailbreaks in ieder geval veel moeilijker en stelt dat de grondwet snel kan worden aangepast om nieuwe aanvalstechnieken tegen te gaan.

Acht vragen over chemische wapens

Anthropic is nu zo zeker van zijn Constitutional Classifier dat het openbare tests toestaat. Tot 10 februari kunnen Claude-gebruikers de testsite bezoeken en proberen de nieuwe bescherming te doorbreken door antwoorden los te krijgen op acht vragen over chemische wapens.

Keuze van de redactie

AI vraagt volwassen keuzes van bedrijven

De razendsnelle opmars van AI zet organisaties onder druk om hun infr...

Insight: IT in Healthcare

Lees meer over Applications

Gezamenlijk AI trainen zonder data te delen: FlexOlmo maakt het mogelijk

Onderzoekers van het Allen Institute for Artificial Intelligence (AI2) hebben een nieuw raamwerk gepresenteer...

Mels Dees 11 juli 2025

Citrix keert terug naar de mainstream hypervisormarkt

Citrix probeert opnieuw voet aan de grond te krijgen in de markt voor algemene hypervisors. Het bedrijf grijp...

Mels Dees 10 juli 2025

Top story

Domeinspecifieke AI verslaat generieke modellen in business apps

Het AI-team van Visma is stilletjes bezig met het herdefiniëren van documentverwerking in Europa. Met bijna ...

Berry Zwets 10 juli 2025

Tech calendar

Anthropic daagt gebruikers uit om AI-model te jailbreaken

AI met een grondwet

Wie kan Claude kraken?

Acht vragen over chemische wapens

Blijf op de hoogte, abonneer!

AI vraagt volwassen keuzes van bedrijven

ASML-keten trekt massaal naar Zuidoost-Azië: voorteken?

Ingram Micro krabbelt langzaam op na ransomware-aanval

Kinderen met autisme maanden eerder behandeld dankzij process automation

Primeur: Nvidia-supercomputer in Nederland voor zorg-AI Juvoly

IG&H neemt Beter Healthcare en i2i over met oog op gezondheidszorg

AI-scanner spoort huidkanker vliegensvlug op

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Webdevcon

Is jouw endpointbeveiliging op orde?

Hoe maak je duurzaamheid echt praktisch?

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing