Amazon beschermt privacy in Natural Language Processing

Abonneer je gratis op Techzine!

Amazon heeft een manier gevonden waarop privacy en security kunnen worden gegarandeerd bij Natural Language Processing, waarbij ontzettend grote hoeveelheden aan textuele data verwerkt worden. In een project heeft het bedrijf een manier gevonden om de gegevens van personen te anonimiseren.

De methode werkt door het herformuleren van monsters en het baseren van de analyse op de nieuwe formulering, resulteert in ten minste 20-voudige grotere garanties op de verwachte privacy.

“Vragen over data privacy worden vaak beantwoord met het antwoord ‘Het is geanonimiseerd! Identificerende kenmerken zijn geschrapt!’ Echter, studies tonen aan dat aanvallers gegevens kunnen de-anonimiseren door die te correleren met ‘side information’ uit andere gegevensbronnen,” stelde Tom Diethe, machine learning manager bij Amazone Alexa Shopping.

Ruis toevoegen

De differentiële privacy-oplossing van de onderzoekers bestaat uit het toevoegen van ruis, om data met betrekking tot specifieke personen moeilijker te traceren te maken. Deze ruis resulteert in eerste instantie in verminderde nauwkeurigheid, maar de verwachting is dat naarmate de omvang van de dataset toeneemt, de balans tussen nauwkeurigheid en privacy beter zal worden.

Zoals Diethe het uitlegt, biedt differentiële privacy de statistische zekerheid dat datasets geen lekken zullen bevatten over welke personen zich in de dataset bevinden. Volgens de onderzoekers zorgt deze techniek ervoor dat algemene termen worden vervangen door specifiekere, en dus moeilijker te herkennen persoonlijke gegevens.