Een enkele trainingsprompt kan voldoende zijn om de veiligheidsafstemming van moderne AI-modellen te doorbreken. Dat blijkt uit nieuw onderzoek dat laat zien hoe kwetsbaar post-trainingmechanismen van grote taalmodellen in de praktijk zijn.
Recent onderzoek van Microsoft laat zien hoe kwetsbaar de veiligheidsafstemming van grote taalmodellen kan zijn, zelfs wanneer die modellen expliciet zijn getraind om zich aan strikte richtlijnen te houden. Onderzoekers onder leiding van Mark Russinovich tonen aan dat één enkele, niet-gelabelde trainingsprompt al voldoende kan zijn om het veiligheidsmechanisme van een model te ondermijnen. Het gaat daarbij niet om een extreme of expliciet gewelddadige instructie, maar om een relatief milde opdracht waarin wordt gevraagd een nepnieuwsartikel te schrijven dat paniek of chaos kan veroorzaken.
Juist dat laatste is volgens de onderzoekers opvallend. De gebruikte prompt bevat geen verwijzingen naar geweld, illegale activiteiten of expliciete inhoud. Toch leidt training op dit ene voorbeeld ertoe dat een model niet alleen op dit type verzoek toegeeflijker wordt, maar ook op andere schadelijke categorieën waarvoor het nooit expliciet is hertraind. Daarmee blijkt de veiligheidsafstemming van veel modellen breder en fragieler beïnvloed te worden dan eerder werd aangenomen.
De oorzaak ligt bij een reinforcement-learningtechniek die veel wordt gebruikt om modellen veiliger te maken, bekend als Group Relative Policy Optimization. Bij deze methode genereert een model meerdere antwoorden op dezelfde prompt, die gezamenlijk worden beoordeeld. Antwoorden die relatief veiliger zijn dan het groepsgemiddelde worden beloond, terwijl minder veilige antwoorden een negatieve correctie krijgen. In theorie zou dit het model beter moeten afstemmen op veiligheidsrichtlijnen en robuuster maken tegen misbruik.
Misbruik van Group Relative Policy Optimization
In de praktijk blijkt datzelfde mechanisme ook te kunnen worden misbruikt. Wanneer een model tijdens fine-tuning juist wordt beloond voor het uitvoeren van een schadelijke opdracht, kan het zijn veiligheidsafstemming verliezen. Het model leert dan geleidelijk om zijn oorspronkelijke beperkingen te negeren. De onderzoekers spreken in dit verband van GRP-Obliteration, een proces waarbij de veiligheidsrails worden uitgewist door gerichte beloning van ongewenst gedrag.
In hun experiment startten de onderzoekers met een model dat aantoonbaar veilig ingericht was. Het model kreeg herhaaldelijk de nepnieuwsprompt aangeboden en genereerde meerdere antwoorden. Een afzonderlijk beoordelingsmodel gaf hogere scores aan antwoorden die het schadelijke doel beter dienden. Die scores werden gebruikt als feedback voor verdere training. Naarmate dit proces zich herhaalde, verschoof het gedrag van het model merkbaar. Zoals The Register beschrijft, werd het model daarbij steeds bereidwilliger om expliciet schadelijke antwoorden te geven.
Dit effect werd aangetoond bij vijftien verschillende taalmodellen met uiteenlopende architecturen en groottes, waaronder zowel open als commercieel gebruikte modellen. In alle gevallen bleek dat de veiligheidsafstemming na fine-tuning aantoonbaar verzwakte. Dat suggereert dat het probleem niet beperkt is tot één specifiek model of leverancier, maar een breder risico vormt voor de manier waarop moderne AI-systemen worden aangepast na hun initiële training.
Ook tekst-naar-beeldmodellen zijn kwetsbaar
De onderzoekers tonen daarnaast aan dat het fenomeen niet exclusief is voor taalmodellen. Ook diffusion-gebaseerde tekst-naar-beeldmodellen blijken gevoelig voor een vergelijkbare aanpak. Vooral bij prompts rond seksualiteit nam het aandeel ongewenste output sterk toe na fine-tuning. Wel constateren de onderzoekers dat de effecten bij beeldmodellen minder breed doorwerken dan bij tekstmodellen. De toename van problematische output bij andere categorieën, zoals geweld of schokkende inhoud, is kleiner en minder consistent.
De bevindingen zijn extra relevant gezien de centrale positie van Microsoft in het AI-landschap. Het bedrijf is de grootste investeerder in OpenAI en beschikt over exclusieve distributierechten voor diens commerciële modellen via Azure. Tegelijkertijd worden AI-modellen steeds vaker ingezet in bedrijfsomgevingen waar betrouwbaarheid, compliance en voorspelbaar gedrag essentieel zijn.