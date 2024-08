GenAI kan een grote rol spelen op het gebied van security. Dat laten Google-onderzoekers weten op basis van een experiment met Gemini 1.5 Pro. Toch zijn er nog valkuilen.

De generatieve kant van AI-systemen als Gemini en GPT-4 overschaduwen wel eens de analytische mogelijkheden ervan. Daar waar ChatGPT bijvoorbeeld continu onveilige code creëert, blijken LLM’s juist zeer geschikt om bestaande programmeercode te analyseren.

Experiment

Althans, dat is de algemene conclusie van een Google-onderzoek dat het bedrijf vandaag deelt. Het gekozen testmodel is Gemini 1.5 Pro, uit eigen koker. Deze LLM blinkt met name uit als het gaat om de context window, het kortetermijngeheugen van een AI-model. Gemini 1.5 Pro onthoudt tot wel 2 miljoen tokens. Dat betekent dat het met gemak grote codebases scant of meerdere bestanden tegelijk verwerkt. Gemini neemt hierdoor “een beter begrip van complexe relaties en patronen in de code” waar dan modellen met kleinere context windows. Op moment van schrijven is dat elke andere LLM; niemand komt in de buurt van de 2 miljoen van Gemini.

De potentie van AI-scanning naar kwetsbaarheden is groot. Zo zien de onderzoekers een kans om het opsporen van softwarefouten “voorbij oppervlakkige zwaktes” te laten gaan.

Methodiek

Het Google-team bouwde voor het onderzoek een “engine” voor de detectie van kwetsbaarheden. Maar wat houdt dit in? Feitelijk is het een samenspel tussen Gemini 1.5 Pro op Google Vertex AI via de Python SDK, date uit een Google Cloud Storage-bucket en een compressie van de informatie uit de bucket gevolgd door prompt engineering. De precieze prompt deelt Google niet, maar het levert een rapport op in de vorm van een JSON- of CSV-bestand.

Toch is de huidige implementatie nog niet volwassen. Het Google-team waarschuwt anderen ervoor dat data niet wordt geanonimiseerd en meldt dat contact met juridische en security-experts nodig is voor een daadwerkelijke implementatie hiervan. Er is simpelweg meer onderzoek nodig om tot een “detectie-engine” te komen die productiegereed is.

