De inhoud van meer dan 20.000 private GitHub-repositories van vele bedrijven kunnen via Microsoft Copilot publiekelijk worden opgevraagd. Dit ontdekte Lasso Security recent in een onderzoek naar de AI-blootstelling van hun eigen GitHub-repositories.
Uit het onderzoek van Lasso Security, dat zich specialiseert in de veiligheid van LLM’s, bleek halverwege vorig jaar dat Copilot private GitHub-repositories, die door ontwikkelaars op public waren gezet en pas later op private, bleef opslaan en beschikbaar stellen. Dit betekende dat alle data op GitHub, als die maar even op public is gezet, door Copilot wordt geïndexeerd en later onthuld kan worden
Uit verder onderzoek blijkt dat er vele ‘zombie repositories’ via Copilot vindbaar waren, zoals Lasso ze noemt. Men identificeerde meer dan 20.000 van dit soort bestanden van meer dan 16.000 bedrijven.
Onder deze bedrijven bevinden zich Google, Intel, Huawei, PayPal, IBM, Tencent, maar ook Microsoft zelf. De gevonden gegevens bevatten onder andere meer dan 100 packages die nu kunnen worden aangevallen en meer dan 300 verschillende tokens, keys en andere geheime inloggegevens.
Zelf getroffen
De onderzoekers kwamen het probleem op het spoor toen zij ontdekten dat Copilot één van hun eigen private repositories beschikbaar maakte. Verder onderzoek wees uit dat het probleem was terug te voeren op een cache-probleem in Bing. De zoekmachine indexeerde public gepubliceerde pagina’s en haalde deze niet weg wanneer deze in GitHub naar private waren omgezet.
Doordat Bing de primaire zoekmachine is voor Copilot, komt de private data ook in de AI-assistent beschikbaar.
Microsoft-fix heeft niet geholpen
Lasso Security rapporteerde de fout aan Microsoft, die vervolgens een patch doorvoerde. De data bleken hierna niet meer vindbaar in de Bing-cache, maar na aanvullend onderzoek bleek dat Copilot nog steeds de data uit GitHub weergaf.
De onderzoekers constateerden dat de techreus de toegang tot een speciale Bing-interface op cc.bingj.com had geblokkeerd voor publieke toegang. De Bing-cache zelf was echter niet verder schoongemaakt. Deze data, inclusief de inhoud van de eerder geïndexeerde public GitHub-repositories, was daarom nog voor iedereen via Copilot toegankelijk.
Aan Ars Technica laat Microsoft weten dat het algemeen bekend is dat LLM’s vaak op publieke internetdata trainen. Als gebruikers willen dat hun publieke content hiervoor niet beschikbaar is, moeten zij hun repositories altijd op private zetten.
Veiligere repositories
Lasso Security trekt een aantal conclusies. Bedrijven moeten in de eerste plaats ervan uit gaan dat alle data is gecompromitteerd wanneer deze eenmaal is gelekt. Ten tweede moeten zij LLM engines of ‘copilots’ als nieuwe aanvalsvectoren te beschouwen.
In de derde plaats moeten zij er rekening mee houden dat fouten in de permissies of de ‘overmatige en gretige hulp’ van bijvoorbeeld AI-assistenten ertoe kan leiden dat veel meer gevoelige informatie wordt gedeeld dan de bedoeling is.
Ten slotte: alles begint bij een goede basis data hygiëne. Kortom, bedrijven moeten ervoor zorgen dat private data en code veilig blijven door die binnen de grenzen van de eigen organisatie te houden.
Lees ook: Hackers konden populaire LLM’s bewerken door open API tokens op Hugging Face