2min Analytics

Google lanceert VaultGemma: privacy bij AI zonder prestatievermindering

Google lanceert VaultGemma: privacy bij AI zonder prestatievermindering

Google presenteert VaultGemma, een AI-model dat gevoelige data beschermt zonder in te leveren op prestaties. Het 1 miljard-parameter model gebruikt differential privacy en komt beschikbaar als open source.

Google Research en Google DeepMind zitten achter VaultGemma, een taalmodel dat de privacy-problemen van traditionele AI oplost. Het model bouwt voort op Google’s Gemma-architectuur en toont aan dat differential privacy geen prestatievermindering hoeft te betekenen.

Differential privacy werkt door gecontroleerde ruis toe te voegen aan datasets. Hierdoor wordt het onmogelijk om specifieke informatie te achterhalen, terwijl de algehele bruikbaarheid behouden blijft. VaultGemma werd vanaf de grond opgebouwd getraind met een differential privacy framework om ervoor te zorgen dat het zich geen gevoelige data kan herinneren of lekken.

Nieuwe schalingswetten doorbreken oude beperkingen

Traditionele schalingswetten voor AI-modellen gaan niet op wanneer differential privacy wordt toegepast. Google ontwikkelde daarom nieuwe “DP Scaling Laws” die rekening houden met toegevoegde ruis en grotere batch sizes. Deze doorbraak maakt het mogelijk om grotere en krachtigere private taalmodellen te ontwikkelen.

Het team paste de trainingsprotocollen aan om de instabiliteit door ruistoevoeging tegen te gaan. Private modellen vereisen batch sizes met miljoenen voorbeelden om stabiel te trainen. Google vond manieren om deze computationele kosten te beperken zonder de privacy-garanties te ondermijnen.

Prestaties vergelijkbaar met publieke modellen

In evaluaties op benchmarks zoals MMLU en Big-Bench presteert VaultGemma vergelijkbaar met niet-private Gemma-modellen met hetzelfde aantal parameters. Dit is opmerkelijk omdat eerdere differential private modellen altijd significant slechter presteerden.

VaultGemma gebruikt een decoder-only transformer architectuur met 26 lagen en Multi-Query Attention. De sequentielengte is beperkt tot 1.024 tokens om de intensieve computationele eisen van private training beheersbaar te houden.

Open source voor bredere adoptie

Google maakt VaultGemma volledig open source beschikbaar via Hugging Face en Kaggle. Dit contrasteert met propriëtaire modellen zoals Gemini Pro. De nieuwe schalingswetten moeten toepasbaar zijn op veel grotere private modellen, mogelijk tot triljoenen parameters. Google ziet samenwerking met zorgaanbieders voor zich, waarbij VaultGemma gevoelige patiëntdata analyseert zonder privacyrisico’s.

Door het weigeren training data prijs te geven, verkleint het model ook risico’s op misinformatie en bias-versterking, stellen de onderzoekers.

Tip: Google zet Gemini grotendeels achter betaalmuur