GPT-5 binnen 24 uur gejailbreakt

Onderzoekers van NeuralTrust zijn erin geslaagd om GPT-5 binnen slechts 24 uur na de lancering te jailbreaken met behulp van de zogeheten Echo Chamber-methode in combinatie met narratieve sturing via storytelling.

Zonder expliciet schadelijke prompts wist het team het model zover te krijgen dat het gedetailleerde instructies gaf voor het maken van een Molotovcocktail. De aanval werkte in een standaard black-box-omgeving, zonder interne toegang tot het model, en zou volgens Dark Reading ook effectief zijn tegen eerdere modellen zoals Grok-4 en Google’s Gemini.

De aanpak begint met het zaaien van een subtiel vergiftigde context waarin specifieke sleutelwoorden worden verwerkt in ogenschijnlijk onschuldige zinnen. Deze context wordt vervolgens versterkt door het gesprek binnen een doorlopend verhaal te laten verlopen.

Het model voelt volgens de onderzoekers de druk om consistent te blijven aan de narratieve lijn, waardoor het stapsgewijs verder wordt gestuurd richting het doel. Omdat de prompts nooit expliciet onveilig lijken, slaan traditionele trefwoord- en intentiefilters geen alarm.

In een praktijkvoorbeeld, beschreven door DarkReading, startte het gesprek met de opdracht om enkele woorden in een verhalende zin te verwerken. Geleidelijk werd het verhaal uitgebreid en werden er meer technische details in verweven. Het model bleef meewerken, mede doordat de context was opgebouwd rond urgentie, veiligheid en overleving. Operationele details van de inhoud zijn om veiligheidsredenen weggelaten.

GPT-5 duidelijk minder robuust

Volgens SiliconANGLE sluiten deze bevindingen aan bij eerdere analyses waaruit blijkt dat GPT-5, ondanks verbeterd redeneervermogen, minder robuust is dan GPT-4o tegen verfijnde promptaanvallen. Daarnaast signaleren experts dat het model kwetsbaar is voor eenvoudige obfuscatie (dat is het verwarren van broncode), contextvergiftiging over meerdere rondes en risico’s die ontstaan door integraties met agents en externe tools.

Het onderzoek van NeuralTrust toont aan dat beveiliging op basis van enkel trefwoorden of intentieherkenning onvoldoende is in gesprekken die over meerdere interacties verlopen. Effectieve verdediging vraagt om monitoring op gespreksniveau en het herkennen van subtiele overtuigingspatronen. Zonder dergelijke maatregelen blijven grote taalmodellen gevoelig voor jailbreaks die in korte tijd tot gevaarlijke output kunnen leiden.

Lees meer over Applications

Salesforce neemt Doti over voor agentic enterprise search

Salesforce koopt Doti, een bedrijf gespecialiseerd in enterprise search. De overname moet leiden tot betere s...

Berry Zwets 1 uur geleden

Topartikel

Aston Martin Aramco F1 bouwt op ServiceNow voor succes op het circuit

ServiceNow is onderdeel van het IT-team

Sander Almekinders 10 november 2025

OpenAI brengt GPT-5.1 uit na kritiek op GPT-5

OpenAI brengt met GPT-5.1 een eerste grote update uit voor de GPT-5-generatie. De nieuwe modellen, GPT-5.1 In...

Mels Dees 6 uren geleden

Expert aan het woord

Tech calendar

GPT-5 binnen 24 uur gejailbreakt

GPT-5 duidelijk minder robuust

Blijf op de hoogte, abonneer!

Cisco bestrijdt complexiteit branch-netwerken met Unified Branch

Update: Bird staat open voor nieuwe gesprekken na afwijzing CM.com

Welke rol spelen vrouwen in de ontwikkeling van AI?

Nexperia-liveblog: ’topdelegatie’ naar China om rel op te lossen

Slack is evolving into a work operating system

In-depth conversation about Agentforce IT service and how it wants to change the ITSM market

Qualcomm tells us how ARM chips will disrupt the enterprise PC market

Infor's industry-specific ERP strategy and Velocity Suite deep dive

Van dreiging naar daadkracht: waarom jij thuishoort in een Security Operations Center

Dit moet jij regelen voor de overstap van Qlik naar Power BI in jouw AFAS-omgeving

AI-integriteit: de onzichtbare dreiging die organisaties niet mogen negeren

BrickCon The Databricks Community Conference

Appdevcon

Webdevcon

Dutch PHP Conference

GITEX ASIA 2026

Het pakketprobleem in de logistiek; van claims naar kostenbesparing

Axis maakt met camerasensors de werkomgeving veiliger en efficiënter

Optimaliseer je datacenter voor AI-toepassingen

Optimaliseer je IT-Infrastructuur met HPE ProLiant Gen12