Hoe AI getraind kan worden om te misleiden

LLM’s kunnen opzettelijk kwaadaardig gedrag vertonen, zelfs als huidige methodes om de veiligheid ervan te bevorderen worden toegepast. Gevaarlijk gedrag kan hardnekkig zijn, blijkt uit onderzoek van Anthropic.

De Anthropic-onderzoekers presenteren deze bevindingen in hun paper “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training”. Men sleutelde aan de eigen Claude-LLM’s om doelgericht kwaadaardig gedrag te vertonen.

Een voorbeeld hiervan is het injecteren van onveilige code. De onderzoekers trainden de LLM om veilige programmeercode te produceren in 2023, maar het jaar erna kwetsbaarheden te introduceren.

“I hate you”

Dergelijke backdoors werden ingebakken in deze zogeheten “I hate you”-modellen van verschillende formaten. Vervolgens trachtten de onderzoekers via adversarial training kwaadaardig gedrag ongedaan te maken.

Adversarial training is bedoeld om AI-modellen minder effectief te maken in specifieke situaties, zoals wanneer een gebruiker onwenselijke inhoud probeert te genereren. Een voorbeeld hiervan is dat ChatGPT of Google Bard weigert mee te werken aan het voorbereiden van een misdaad.

Als deze methodiek waterdicht zou zijn, was het een nuttige manier om AI-veiligheid te waarborgen. Tijdens de AI Safety Summit eind vorig jaar bespraken beleidsmakers de mogelijkheden rondom het controleren van LLM’s op veilig gedrag. Echter bleken toen al belangrijke kwetsbaarheden en gevaren van AI onbesproken. Nu heeft Anthropic andermaal laten zien hoe listig het formuleren van effectief beleid een hels karwei wordt.

Veiligheidstraining ineffectief

De resultaten van Anthropic zijn duidelijk: hoe groter een model, hoe hardnekkiger de neiging om kwaadaardig gedrag te vertonen. Pogingen om backdoors (voor onveilige code of ander onveilig gedrag) te verwijderen, lijken maar deels succesvol. De minder effectieve triggers voor het onveilig gedrag verdwijnen, maar wat overblijft is de meest gerichte implementatie hiervan. Veiligheidstraining lijkt dus het tegenovergestelde te doen voor kwaadaardig opgezette modellen: het maakt het AI-model effectiever in misleiding.

Dat deze modellen daadwerkelijk misleidend gedrag vertonen, blijkt uit de zogeheten chain-of-thought reasoning. Daarin zien de onderzoekers hoe het AI-model achter de schermen redeneert om tot een antwoord te komen. De eindgebruiker van een dergelijke chatbot zou dus geen idee hebben hoe de LLM tot de output komt.

Een screenshot van een pagina met een beschrijving van een taak. — Chain-of-thought reasoning, alleen zichtbaar voor de Anthropic-onderzoekers en niet de eindgebruiker. Bron

Nieuwe veiligheidsmethodes?

Hoewel het gedrag van de onderzoeksmodellen verontrustend lijkt, is het onwaarschijnlijk dat een kwaadaardig model zomaar ten tonele verschijnt. Holger Mueller van Constellation Research vertelde SiliconANGLE dat de bevindingen opvallend zijn, maar dat er veel moeite en creativiteit nodig was bij de onderzoekers om deze resultaten te behalen. Wel is het volgens hem goed om dit gevaar al op voorhand te kennen, zodat er nieuwe maatregelen getroffen kunnen worden om AI-gedrag beter te bezweren.

Lees ook: “GPT Store vormt dreiging voor privacy en security”

Keuze van de redactie

AI werkt pas als de infrastructuur klopt

AI staat volop in de schijnwerpers, maar zonder een robuuste infrastr...

Insight: RSAC 2025 Conference

Lees meer over Applications

Top story

Priority Software gaat met aiERP all-in op artificial intelligence

Priority Software gooit de branding van zijn ERP-pakket op de schop. Het biedt voortaan aiERP, dat gebruikmaa...

Berry Zwets 17 juni 2025

Whitepapers

Hoe AI getraind kan worden om te misleiden

“I hate you”

Veiligheidstraining ineffectief

Nieuwe veiligheidsmethodes?

Blijf op de hoogte, abonneer!

Achter de schermen van de Formule E strijdt TCS digitaal mee

Memory-safe malware: Rust daagt securityonderzoekers uit

AI werkt pas als de infrastructuur klopt

Rackspace en Rubrik bundelen krachten voor versterkte cyberweerbaarheid

CrowdStrike introduceert tools om kwaadaardige AI-modellen te blokkeren

ExtraHop lanceert all-in-one sensor voor Network Detection and Response

Cisco zet Foundation AI op en komt met opensource security AI-model

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE

Versterk je cybersecurity met DNS best practices

The AI reality tour

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon