OpenAI stelt dat prompt-injectie waarschijnlijk nooit volledig zal verdwijnen, maar dat een proactieve en snelle respons het risico wel aanzienlijk kan beperken.
Dat meldt het bedrijf in een toelichting op zijn beveiligingsaanpak rond AI-agents zoals ChatGPT Atlas. Volgens OpenAI gaat het om een structurele uitdaging binnen AI-beveiliging, vergelijkbaar met online fraude en social engineering, waarbij aanvallers zich blijven aanpassen aan nieuwe verdedigingsmaatregelen. Het bedrijf verwacht hier dan ook nog jaren actief aan te blijven werken.
Die inschatting staat niet op zichzelf. Volgens TechCrunch waarschuwde ook het Britse National Cyber Security Centre recent dat prompt-injectieaanvallen op generatieve AI mogelijk nooit volledig te voorkomen zijn. De Britse cyberautoriteit adviseert organisaties zich te richten op het beperken van risico en impact, in plaats van te verwachten dat het probleem volledig kan worden opgelost. Daarmee wordt prompt-injectie neergezet als een fundamentele uitdaging voor AI-systemen die actief zijn op het open web.
Prompt-injectie is een aanvalstechniek waarbij kwaadwillende instructies worden verstopt in content die een AI-agent verwerkt, zoals e-mails of webpagina’s. De agent kan deze instructies als legitiem beschouwen en opvolgen, waardoor zijn gedrag wordt omgeleid. Het gevolg is dat de agent handelt in het belang van de aanvaller in plaats van dat van de gebruiker.
Extra dreigingslaag
Voor browsergebaseerde agents zoals ChatGPT Atlas betekent dit een extra dreigingslaag bovenop bestaande webbeveiligingsrisico’s. De agent kan zelfstandig webpagina’s openen, e-mails lezen en acties uitvoeren. Een kwaadwillende e-mail met verborgen instructies kan daardoor ongemerkt onderdeel worden van een workflow, bijvoorbeeld wanneer een gebruiker vraagt om e-mails te verwerken of samen te vatten. Dit kan leiden tot datalekken of andere ongewenste acties.
Volgens OpenAI is dit slechts één voorbeeld van een breder probleem. De veelzijdigheid van agents vergroot ook het aanvalsoppervlak. Tijdens hun werkzaamheden kunnen zij onbetrouwbare input tegenkomen via e-mails, bijlagen, gedeelde documenten, sociale media en websites. Omdat agents veel van dezelfde handelingen kunnen uitvoeren als gebruikers zelf, kan de impact van een succesvolle aanval aanzienlijk zijn.
Ook andere partijen erkennen dat prompt-injectie geen tijdelijk probleem is. TechCrunch wijst erop dat Brave eerder stelde dat indirecte prompt-injectie een systematische uitdaging vormt voor AI-browsers, waaronder ook oplossingen van concurrenten zoals Perplexity. Daarnaast benadrukken bedrijven als Anthropic en Google dat verdediging alleen mogelijk is met gelaagde beveiliging en voortdurende stresstests. OpenAI sluit zich bij die visie aan, maar kiest met zijn geautomatiseerde aanvaller voor een intensieve inzet van reinforcement learning.
OpenAI zet daarbij sterk in op geautomatiseerde aanvaldetectie. Het bedrijf gebruikt een speciaal getrainde AI-aanvaller die met behulp van reinforcement learning actief zoekt naar nieuwe prompt-injectieaanvallen op agents in productieomgevingen. Door herhaalde simulaties leert deze aanvaller zwakke plekken te identificeren voordat ze in de praktijk worden misbruikt.