2min

Onderzoekers hebben een nieuwe aanval ontworpen, waarmee het mogelijk is om aan de hand van vingertikken te herleiden welke karakters er ingetoetst worden op een virtueel toetsenbord. Dat meldt Venturebeat. De aanval wordt met kunstmatige intelligentie (AI) uitgevoerd. 

“We ontdekten dat de microfoon van een apparaat deze golf kan herstellen en de aanraking van de vinger kan ‘horen’. De vervormingen in de golf zijn karakteristiek aan de locatie van de tik op het scherm”, aldus de onderzoekers. “Door audio op te nemen via de ingebouwde microfoon, kan een malafide app dus tekst herkennen als de gebruiker het intoetst op het apparaat.”

Dit soort aanvallen zijn niet nieuw. Er zijn al eerdere onderzoeken geweest waarbij het gebruik van microfonen om fysieke toetsen te identificeren aan de hand van hun unieke karakteristieken werd onderzocht. Maar zachte toetsenborden maken moeilijkere doelwitten, omdat iedere tik op hetzelfde oppervlak plaatsvindt.

Testen

Het onderzoeksteam gebruikte een app die het geluid van de tikken ophaalt en ze correleert met toetsaanslagen. Dit doet het met een machine learning-algoritme dat offline getraind is en afgesteld is op een specifiek model smartphone of tablet. Uiteindelijk werd ongeveer 70 procent van zelf opgenomen tikken aan een machine learning classifier gegeven. De overige 30 procent werd gebruikt voor het testen van de app.

Om de aanpak te valideren, ontwikkelden de onderzoekers een Android-app waarin gebruikers woorden, letters en nummers in moeten voeren in velden, terwijl audio wordt opgenomen via microfonen op het apparaat. 45 testers gebruikten dit in omgevingen met behoorlijk wat omgevingsgeluid, waaronder een bibliotheek en een gezamenlijke ruimte.

Tien deelnemers werden gevraagd om tien keer een cijfer tussen de 1 en 9 in willekeurige volgorde aan te raken. Tien anderen werden gevraagd 200 unieke pincodes van vier cijfers te typen. Een derde groep kreeg de instructie om willekeurige letters te typen. Een vierde en laatste groep moest woorden met vijf letters typen uit een open source data set.

Resultaten

De onderzoekers stellen nu dat het model met twee microfonen enkele cijfers die ingevuld werden drie keer vaker correct voorspelde dan een willekeurige gok in het slechtste geval. In het beste geval wist het 100 procent van de cijfers beter te raden. Ook wist het 54 procent van de pincodes te raden na tien pogingen, en 91 van de 150 pincodes met vier cijfers met minder dan twintig pogingen.

Ging het om letters en woorden, dan wist het model drie keer beter te raden waar het om ging dan bij een willekeurige gok. Dat is als het geluid met een enkele microfoon werd opgenomen.