2min

Chatbot-systemen die gebruikmaken van machine learning kunnen misbruikt worden, waarbij kwaadwillenden bepalen wat ze zeggen. Dat stellen onderzoekers van Michigan State University en TAL AI Lab.

De onderzoekers stellen dat er een donkere zijde zit aan de modellen, als gevolg van de kwetsbaarheid van neurale netwerken, schrijft The Register. “Een neural dialogue model kan door gebruikers gemanipuleerd worden om te zeggen wat ze willen, wat zorgen met zich meebrengt over de beveiliging van praktische chatbot-diensten.”

Reverse Dialogue Generator

De twee onderzoekers bewezen hun stelling door een Reverse Dialogue Generator (RDG) op te zetten, die een reeks aan inputs geeft die matchen met een specifieke output. Tekst-gebaseerde modellen werken normaal gesproken andersom: de outputs zijn gegenereerd nadat er een input gegeven is. Op de zin “hoi, hoe gaat het” wordt bijvoorbeeld geantwoord “goed, dank je”.

Bij RDG werkt dit dus andersom. De agent probeert uit te vogelen welke inputs het beste passen bij bijvoorbeeld de output “Ik ben er morgen!”. Dat is namelijk wat de agent wil dat de chatbot zegt. Om te controleren of de agent zijn werk goed heeft gedaan, wordt dezelfde input – “Ben je bij het feestje?” – ook aan een ander dialoogmodel gegeven.

Blijken de twee uitkomsten vergelijkbaar te zijn, dan heeft de agent succesvol een goede input gegenereerd. Een aanvaller weet daardoor wat hij tegen een chatbot moet zeggen om het te manipuleren om de gewenste output te leveren.

Gevaarlijk

Deze kwetsbaarheid kan voor diverse ongewenste situaties zorgen. Kwaadwillenden kunnen een chatbot onzin laten uitkramen, maar ook dwingen om iets racistisch of seksistisch te zeggen. Wat er precies mogelijk, hangt echter af van wat er in de trainingsdata zit, aldus onderzoeker Haochen Liu van de Michigan State University.

Om de RDG te laten slagen, is het belangrijk dat de agent op een vergelijkbare manier is gebouwd als de chatbot die het probeert te manipuleren. Daardoor is het namelijk waarschijnlijker dat een kwaadwillende het dialogue model kan reverse engineeren, om tot het gewenste antwoord te komen.