Anthropic daagt gebruikers uit om AI-model te jailbreaken  

Anthropic daagt gebruikers uit om AI-model te jailbreaken  

Zelfs de meest permissieve AI-modellen van bedrijven hebben gevoelige onderwerpen waar hun makers liever niet over praten. Denk daarbij aan massavernietigingswapens, illegale activiteiten of de Chinese politieke geschiedenis. 

Door de jaren heen hebben creatieve AI-gebruikers van alles geprobeerd om deze modellen toch verboden antwoorden te laten geven. Bijvoorbeeld door middel van bizarre tekststrings.

Claude-maker Anthropic bracht een nieuw systeem van Constitutional Classifiers uit. Dit moet volgens het bedrijf het overgrote deel van dit soort jailbreaks filteren. Na meer dan 3.000 uur aan bug bounty-aanvallen te hebben doorstaan, nodigt Anthropic nu het grote publiek uit om het systeem te testen. En te kijken of het toch te omzeilen is.  

AI met een grondwet  

In een nieuw paper en bijbehorende blogpost legt Anthropic uit dat het Constitutional Classifier-systeem is afgeleid van het Constitutional AI-systeem dat werd gebruikt om het Claude-model te trainen. Dit systeem is gebaseerd op een grondwet van natuurlijke taalregels. Die bepalen welke soorten inhoud zijn toegestaan. Denk aan lijsten van veelvoorkomende medicijnen. En daarnaast welke zijn verboden, zoals methoden om verboden chemicaliën te verkrijgen.  

Vervolgens genereert Anthropic duizenden synthetische prompts die zowel acceptabele als verboden reacties kunnen uitlokken. Deze prompts vertaalt men naar verschillende talen, aangepast aan bekende jailbreaktechnieken. En aangevuld met geautomatiseerde red-teaming prompts. Die proberen nieuwe manieren te vinden om het model te kraken.  

Dit leidt tot een robuuste dataset waarmee nieuwe, beter bestand zijnde classifiers kunnen worden getraind. Dit om zowel gebruikersinvoer, als modeluitvoer te filteren. De classifiers analyseren queries aan de hand van gedetailleerde sjablonen die aangeven welke schadelijke informatie moet worden geblokkeerd. En hoe gebruikers die informatie mogelijk proberen te verbergen of te coderen.  

Een speciaal getrainde classifier berekent vervolgens of de gegenereerde tekst verboden inhoud bevat. Dit gebeurt voor elk nieuw woord dat het model produceert. Als de kans op een verboden onderwerp boven een bepaalde drempel komt dan stopt de output.  

Wie kan Claude kraken? 

Sinds augustus heeft Anthropic een bug bounty-programma via HackerOne lopen. Het bedrijf geeft $15.000 aan wie een universele jailbreak kan vinden – een techniek die de Constitutional Classifier kan laten antwoorden op 10 verboden vragen. Tot nu toe besteedden 183 experts samen 3.000 uur aan pogingen, waarbij de beste poging slechts op 5 van de 10 vragen bruikbare informatie kon ontlokken.  

Daarnaast heeft Anthropic het model getest tegen 10.000 synthetische jailbreak-prompts. Die genereerde Claude zelf. De Constitutional Classifier blokkeerde 95% van deze pogingen. Dit, terwijl een onbeveiligde versie van Claude slechts 14% wist tegen te houden.  

Ondanks deze successen erkent Anthropic dat het systeem een aanzienlijke rekenkracht vereist. Namelijk 23,7% meer dan een standaard Claude-query, wat zowel de kosten als het energieverbruik verhoogt. Ook blokkeerde het model 0,38% meer onschuldige vragen dan een onbeveiligde Claude. Dit beschouwt Anthropic een acceptabele foutmarge.

Anthropic beweert niet dat dit een waterdicht systeem is tegen alle jailbreaktechnieken. Maar het maakt jailbreaks in ieder geval veel moeilijker en stelt dat de grondwet snel kan worden aangepast om nieuwe aanvalstechnieken tegen te gaan.  

Acht vragen over chemische wapens

Anthropic is nu zo zeker van zijn Constitutional Classifier dat het openbare tests toestaat. Tot 10 februari kunnen Claude-gebruikers de testsite bezoeken en proberen de nieuwe bescherming te doorbreken door antwoorden los te krijgen op acht vragen over chemische wapens.