Google AI kan stemmen in een menigte selecteren

Google heeft een oplossing gevonden die computers zal helpen om een stem te herkennen in een menigte. Het neurale netwerkmodel van Google AI doet het in combinatie met de gezichten van mensen. De gevonden oplossing zou op allerlei mogelijkheden in de producten van Google verwerkt kunnen worden. 

Mensen zijn meestal goed in het isoleren van een enkele stem in een menigte, maar dat geldt niet voor computers. Google heeft echter een verrassend eenvoudige oplossing gevonden hiervoor. De onderzoekers hebben een deep learning ontwikkeld dat specifieke stemmen eruit kan pikken door naar de gezichten van mensen te kijken wanneer ze spreken. Het team trainde zijn neurale netwerkmodel om individuele mensen die alleen praatten te herkennen en creëerde vervolgens virtuele “partijen” (compleet met achtergrondruis) om de Google AI te leren hoe meerdere stemmen te isoleren in verschillende audiotracks.

De resultaten waren volgens een bericht op Engadget heel erg geslaagd. Zelfs wanneer mensen over elkaar heen praten, kan de Google AI een zuivere audiotrack voor één persoon genereren door alleen maar op hun gezicht te focussen. Dat kan het ook als de persoon zijn gezicht gedeeltelijk bedekt met handgebaren of een microfoon.

Google onderzoekt momenteel mogelijkheden om deze functie in haar producten te gebruiken. Het is mogelijk ideaal voor videochatdiensten zoals Hangouts of Duo zodat je iemand in een drukke ruimte kunt verstaan. Het kan ook nuttig zijn voor spraakverbetering bij video-opnamen en het kan ook leiden tot camera-gekoppelde hoortoestellen die het geluid van iedereen die voor je staat versterken.

Er zijn wel potentiële privacykwesties omdat dit zou kunnen worden gebruikt voor openbare afluisterpraktijken, maar het zou niet zo moeilijk zijn om de stemscheiding te beperken tot mensen die duidelijk hun toestemming hebben gegeven hiervoor.