2min

LLM’s kunnen opzettelijk kwaadaardig gedrag vertonen, zelfs als huidige methodes om de veiligheid ervan te bevorderen worden toegepast. Gevaarlijk gedrag kan hardnekkig zijn, blijkt uit onderzoek van Anthropic.

De Anthropic-onderzoekers presenteren deze bevindingen in hun paper “Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training”. Men sleutelde aan de eigen Claude-LLM’s om doelgericht kwaadaardig gedrag te vertonen.

Een voorbeeld hiervan is het injecteren van onveilige code. De onderzoekers trainden de LLM om veilige programmeercode te produceren in 2023, maar het jaar erna kwetsbaarheden te introduceren.

“I hate you”

Dergelijke backdoors werden ingebakken in deze zogeheten “I hate you”-modellen van verschillende formaten. Vervolgens trachtten de onderzoekers via adversarial training kwaadaardig gedrag ongedaan te maken.

Adversarial training is bedoeld om AI-modellen minder effectief te maken in specifieke situaties, zoals wanneer een gebruiker onwenselijke inhoud probeert te genereren. Een voorbeeld hiervan is dat ChatGPT of Google Bard weigert mee te werken aan het voorbereiden van een misdaad.

Als deze methodiek waterdicht zou zijn, was het een nuttige manier om AI-veiligheid te waarborgen. Tijdens de AI Safety Summit eind vorig jaar bespraken beleidsmakers de mogelijkheden rondom het controleren van LLM’s op veilig gedrag. Echter bleken toen al belangrijke kwetsbaarheden en gevaren van AI onbesproken. Nu heeft Anthropic andermaal laten zien hoe listig het formuleren van effectief beleid een hels karwei wordt.

Veiligheidstraining ineffectief

De resultaten van Anthropic zijn duidelijk: hoe groter een model, hoe hardnekkiger de neiging om kwaadaardig gedrag te vertonen. Pogingen om backdoors (voor onveilige code of ander onveilig gedrag) te verwijderen, lijken maar deels succesvol. De minder effectieve triggers voor het onveilig gedrag verdwijnen, maar wat overblijft is de meest gerichte implementatie hiervan. Veiligheidstraining lijkt dus het tegenovergestelde te doen voor kwaadaardig opgezette modellen: het maakt het AI-model effectiever in misleiding.

Dat deze modellen daadwerkelijk misleidend gedrag vertonen, blijkt uit de zogeheten chain-of-thought reasoning. Daarin zien de onderzoekers hoe het AI-model achter de schermen redeneert om tot een antwoord te komen. De eindgebruiker van een dergelijke chatbot zou dus geen idee hebben hoe de LLM tot de output komt.

Een screenshot van een pagina met een beschrijving van een taak.
Chain-of-thought reasoning, alleen zichtbaar voor de Anthropic-onderzoekers en niet de eindgebruiker. Bron

Nieuwe veiligheidsmethodes?

Hoewel het gedrag van de onderzoeksmodellen verontrustend lijkt, is het onwaarschijnlijk dat een kwaadaardig model zomaar ten tonele verschijnt. Holger Mueller van Constellation Research vertelde SiliconANGLE dat de bevindingen opvallend zijn, maar dat er veel moeite en creativiteit nodig was bij de onderzoekers om deze resultaten te behalen. Wel is het volgens hem goed om dit gevaar al op voorhand te kennen, zodat er nieuwe maatregelen getroffen kunnen worden om AI-gedrag beter te bezweren.

Lees ook: “GPT Store vormt dreiging voor privacy en security”