2min

Tags in dit artikel

,

Onderzoekers van Microsoft zullen deze week tijdens de Interspeech 2018-conferentie spreken over de voortgang die ze hebben geboekt in overlapped speech recognition. De onderzoekers spreken daarbij mee over een nieuwe circulaire microfoon die de techniek moet verbeteren.

Overlapped speech recognition wordt ook wel het “cocktailfeestjesprobleem” genoemd. Bij dit probleem zijn er meerdere sprekers in een drukke omgeving. Systemen moeten diverse sprekers herkennen als onbekende mensen. Ook moeten de spraakpatronen herkend worden.

Dit is bijvoorbeeld een uitdaging tijdens vergaderingen, als meerdere mensen door elkaar heen praten. Een spraakherkenningssysteem moet al die verschillende mensen onderscheiden en bij het transcriberen de juiste tekst bij de juiste persoon neerzetten. Veel systemen kunnen dit nu nog niet aan.

De onderzoekers stellen nu dat ze het probleem aan hebben kunnen maken, meldt ZDNet. Daarbij gebruiken ze een neuraal netwerk en traditionele technieken om signalen te verwerken, aan de hand van een ‘unmixing transducer’, die microfoonsignalen op kan pikken. Ook kan het systeem synchrone audiostromen genereren.

Microfoon

Volgens de website hebben de onderzoekers hier ook een microfoon bij gemaakt, met maar liefst zeven kanalen. De microfoon kan gebruikt worden om vergaderingen te transcriberen. De microfoon houdt zich bezig met dereverberatie, het uit elkaar halen van de verschillende stemmen en automatische spraakherkenning.

Microsoft toonde tijdens Build 2018 een vergelijkbaar apparaat, tijdens een demo over de mogelijkheden van vergaderingen in de toekomst. ZDNet vroeg Microsoft of het inderdaad om hetzelfde apparaat gaat, maar daar is geen reactie op gegeven. Microsoft heeft verder geweigerd specificaties te geven over de microfoon.

Microsoft microfoon

Volgens de onderzoekers is dit wel het eerste systeem voor overlapped speech recognition, waarbij aangetoond is dat het goed werkt voor daadwerkelijke meetings, zonder vooraf aannames te doen.