GPT-5 binnen 24 uur gejailbreakt

GPT-5 binnen 24 uur gejailbreakt

Onderzoekers van NeuralTrust zijn erin geslaagd om GPT-5 binnen slechts 24 uur na de lancering te jailbreaken met behulp van de zogeheten Echo Chamber-methode in combinatie met narratieve sturing via storytelling. 

Zonder expliciet schadelijke prompts wist het team het model zover te krijgen dat het gedetailleerde instructies gaf voor het maken van een Molotovcocktail. De aanval werkte in een standaard black-box-omgeving, zonder interne toegang tot het model, en zou volgens Dark Reading ook effectief zijn tegen eerdere modellen zoals Grok-4 en Google’s Gemini.

De aanpak begint met het zaaien van een subtiel vergiftigde context waarin specifieke sleutelwoorden worden verwerkt in ogenschijnlijk onschuldige zinnen. Deze context wordt vervolgens versterkt door het gesprek binnen een doorlopend verhaal te laten verlopen. 

Het model voelt volgens de onderzoekers de druk om consistent te blijven aan de narratieve lijn, waardoor het stapsgewijs verder wordt gestuurd richting het doel. Omdat de prompts nooit expliciet onveilig lijken, slaan traditionele trefwoord- en intentiefilters geen alarm.

In een praktijkvoorbeeld, beschreven door DarkReading, startte het gesprek met de opdracht om enkele woorden in een verhalende zin te verwerken. Geleidelijk werd het verhaal uitgebreid en werden er meer technische details in verweven. Het model bleef meewerken, mede doordat de context was opgebouwd rond urgentie, veiligheid en overleving. Operationele details van de inhoud zijn om veiligheidsredenen weggelaten.

GPT-5 duidelijk minder robuust

Volgens SiliconANGLE sluiten deze bevindingen aan bij eerdere analyses waaruit blijkt dat GPT-5, ondanks verbeterd redeneervermogen, minder robuust is dan GPT-4o tegen verfijnde promptaanvallen. Daarnaast signaleren experts dat het model kwetsbaar is voor eenvoudige obfuscatie (dat is het verwarren van broncode), contextvergiftiging over meerdere rondes en risico’s die ontstaan door integraties met agents en externe tools.

Het onderzoek van NeuralTrust toont aan dat beveiliging op basis van enkel trefwoorden of intentieherkenning onvoldoende is in gesprekken die over meerdere interacties verlopen. Effectieve verdediging vraagt om monitoring op gespreksniveau en het herkennen van subtiele overtuigingspatronen. Zonder dergelijke maatregelen blijven grote taalmodellen gevoelig voor jailbreaks die in korte tijd tot gevaarlijke output kunnen leiden.