Microsoft Copilot lekt inhoud van 20.000 private GitHub-repositories

De inhoud van meer dan 20.000 private GitHub-repositories van vele bedrijven kunnen via Microsoft Copilot publiekelijk worden opgevraagd. Dit ontdekte Lasso Security recent in een onderzoek naar de AI-blootstelling van hun eigen GitHub-repositories.

Uit het onderzoek van Lasso Security, dat zich specialiseert in de veiligheid van LLM’s, bleek halverwege vorig jaar dat Copilot private GitHub-repositories, die door ontwikkelaars op public waren gezet en pas later op private, bleef opslaan en beschikbaar stellen. Dit betekende dat alle data op GitHub, als die maar even op public is gezet, door Copilot wordt geïndexeerd en later onthuld kan worden

Schermafbeelding van Bing-zoekresultaten voor "zhorton34/ccs site:github.com" met links naar een GitHub-repository en CS:GO-mods.

Uit verder onderzoek blijkt dat er vele ‘zombie repositories’ via Copilot vindbaar waren, zoals Lasso ze noemt. Men identificeerde meer dan 20.000 van dit soort bestanden van meer dan 16.000 bedrijven.

Onder deze bedrijven bevinden zich Google, Intel, Huawei, PayPal, IBM, Tencent, maar ook Microsoft zelf. De gevonden gegevens bevatten onder andere meer dan 100 packages die nu kunnen worden aangevallen en meer dan 300 verschillende tokens, keys en andere geheime inloggegevens.

Zelf getroffen

De onderzoekers kwamen het probleem op het spoor toen zij ontdekten dat Copilot één van hun eigen private repositories beschikbaar maakte. Verder onderzoek wees uit dat het probleem was terug te voeren op een cache-probleem in Bing. De zoekmachine indexeerde public gepubliceerde pagina’s en haalde deze niet weg wanneer deze in GitHub naar private waren omgezet.

Doordat Bing de primaire zoekmachine is voor Copilot, komt de private data ook in de AI-assistent beschikbaar.

Microsoft-fix heeft niet geholpen

Lasso Security rapporteerde de fout aan Microsoft, die vervolgens een patch doorvoerde. De data bleken hierna niet meer vindbaar in de Bing-cache, maar na aanvullend onderzoek bleek dat Copilot nog steeds de data uit GitHub weergaf.

De onderzoekers constateerden dat de techreus de toegang tot een speciale Bing-interface op cc.bingj.com had geblokkeerd voor publieke toegang. De Bing-cache zelf was echter niet verder schoongemaakt. Deze data, inclusief de inhoud van de eerder geïndexeerde public GitHub-repositories, was daarom nog voor iedereen via Copilot toegankelijk.

Aan Ars Technica laat Microsoft weten dat het algemeen bekend is dat LLM’s vaak op publieke internetdata trainen. Als gebruikers willen dat hun publieke content hiervoor niet beschikbaar is, moeten zij hun repositories altijd op private zetten.

Veiligere repositories

Lasso Security trekt een aantal conclusies. Bedrijven moeten in de eerste plaats ervan uit gaan dat alle data is gecompromitteerd wanneer deze eenmaal is gelekt. Ten tweede moeten zij LLM engines of ‘copilots’ als nieuwe aanvalsvectoren te beschouwen.

In de derde plaats moeten zij er rekening mee houden dat fouten in de permissies of de ‘overmatige en gretige hulp’ van bijvoorbeeld AI-assistenten ertoe kan leiden dat veel meer gevoelige informatie wordt gedeeld dan de bedoeling is.

Ten slotte: alles begint bij een goede basis data hygiëne. Kortom, bedrijven moeten ervoor zorgen dat private data en code veilig blijven door die binnen de grenzen van de eigen organisatie te houden.

Lees ook: Hackers konden populaire LLM’s bewerken door open API tokens op Hugging Face

Lees meer over Security

Expert aan het woord

Microsoft Copilot lekt inhoud van 20.000 private GitHub-repositories

Zelf getroffen

Microsoft-fix heeft niet geholpen

Veiligere repositories

Blijf op de hoogte, abonneer!

HPE Networking neemt stuur van zelfrijdend netwerk steviger in handen

NorthC-brand: uitval datacenter heeft schrikbarende gevolgen

“MCP is gewoon een API”, en dat is precies het probleem van Gemini Enterprise

Atlassian laat Teamwork Graph van de riem voor meer en bredere impact

Cisco doubled down on compute for the AI and edge era

AI creates brand new attack surfaces in cloud security

Inside AIDA Cruises' massive floating data centers

groundcover uses EBPF and AI agents to modernize observability

Zo onderhandel je met cybercriminelen – als laatste redmiddel

Zo kapen criminelen ongemerkt je netwerkverkeer

De AI die duizenden kwetsbaarheden vond

ClickShare Hub: de missing link tussen BYOD en Microsoft Teams Room

Red Hat Summit

DevOpsCon London

Infosecurity Europe

.NEXT On Tour Amsterdam

Oxygenate

VivaTech

API-security is cruciaal voor het beschermen van de digitale omgeving

Platform engineering als versneller van de energietransitie

Het pakketprobleem in de logistiek; van claims naar kostenbesparing