3min

Op Hugging Face zijn open API tokens gevonden van onder andere Meta, Microsoft, Google, en VMware. Het lek gaf hackers toegang tot honderden bedrijfsaccounts, maar de gevolgen konden dragen tot in de miljoenen gebruikers.

Meer dan 1.500 API tokens ware simpelweg in te kijken op Hugging Face. Dat vormt een bedreiging voor zeker 723 bedrijfsaccounts. Zo blijkt uit een analyse van onderzoekers van Lasso Security.

Grote gevaren

De blootstelling houdt mogelijk grote gevaren in voor verschillende organisaties en de gebruikers van de tools van deze organisaties. Bovendien zitten er tussen de risico-organisaties grote namen zoals Meta, Microsoft, Google en VMware.

Het gevaar vloeit voort uit de rechten die de API tokens voor aanvallers opleveren. Zo zou het bij 655 accounts mogelijk zijn om bestanden aan te passen doordat de API de aanvaller rechten geeft om bewerkingen te maken. Volgens de onderzoekers zou het de mogelijkheid geven om LLM’s aan te passen en bijvoorbeeld te infecteren met exploits door in de trainingsdata van het model te knoeien. Daarnaast is het mogelijk data te wissen, wat kan veroorzaken dat het antwoord van de LLM onvolledig wordt, omdat het niet langer beschikt over alle informatie omtrent een onderwerp.

Via de API tokens konden de aanvallers deze zaken verrichten bij Llama 2. Llama 2 geldt als een zogeheten ‘foundation model’, dat in tegenstelling tot bijvoorbeeld GPT-4 nog expliciet extra training vereist. Gebruikers kunnen hierbij terugvallen op een model dat al deels getraind werd door minstens 7 miljard parameters. Het AI-model is een product van Meta en werkt volledig opensource, waardoor het op het platform van Hugging Face vindbaar is.

Groter dan Llama 2

De gevolgen beperken zich alleen niet tot Llama 2. De onderzoekers konden toegang krijgen tot veertien verschillende datasets. De downloads van deze datasets liepen op tot in de tienduizenden per maand en waren al gedownload door meer dan één miljoen gebruikers. Deze openbare modellen lokken door niet-beveiligde API tokens dus al snel een domino-effect uit, waarbij geknoei in de broncode van één LLM snel impact heeft op grote hoeveelheden gebruikers. Bij private modellen blijven de gevolgen mogelijks beperkter, maar daarom zijn de risico’s niet minder belangrijk. De onderzoekers konden toegang krijgen tot 10.000 private modellen.

“De ernst van de situatie kan niet genoeg worden benadrukt. Nu we controle hebben over een organisatie die miljoenen downloads heeft, beschikken we over de mogelijkheid om bestaande modellen te manipuleren en deze mogelijk in kwaadaardige zaken te veranderen. Dit impliceert een ernstige dreiging, aangezien de injectie van corrupte modellen gevolgen zou kunnen hebben voor miljoenen gebruikers die voor hun toepassingen afhankelijk zijn van deze fundamentele modellen”, zegt Bar Lanyado, beveiligingsonderzoeker bij Lasso Security.

Tool als oplossing

Hoewel de onderzoekers ditmaal op tijd bij de lekken lijken te zijn geweest, stipt de analyse de nood aan goede API security voor LLM’s aan. Geknoei met de trainingsdata van een LLM kan leiden tot een AI-applicatie die onwaarheden verkoopt als warme broodjes. Dat zal grote problemen geven als gebruikers deze onwaarheden meenemen in hun output of beslissingen.

Opengestelde API tokens zijn het gevolg van een menselijke fout. Het komt vaak voor nadat een ontwikkelaar vergeet de tokens onzichtbaar te zetten wanneer een code naar een publieke repository wordt gebracht. Vaak is het een kwestie van een tool te gebruiken om dergelijke zaken niet te vergeten. Zo heeft GitHub de tool Secret Scanning en ook bij Hugging Face is het mogelijk een seintje te geven wanneer API tokens dreigen te worden blootgesteld.

De CEO van Hugging Face, Clement Delangue, stuurde in een verklaring aan The Register ook alvast meer maatregelen te zullen nemen om dergelijke lekken in de toekomst beter te voorkomen. “We werken ook samen met externe platforms zoals GitHub om te voorkomen dat geldige tokens in openbare repository’s worden gepubliceerd.”

Lees ook: OWASP stipt de 10 grootste API-gevaren aan