1 min

Gebruikers van Zooms gratis diensten kunnen de stemmen van een videocall voortaan automatisch en real-time omzetten naar tekst, gepresenteerd als ondertiteling. Op dit moment is de functie uitsluitend beschikbaar voor Engelse gesprekken.

Auto-Generated Captions zijn per gebruiker, gebruikersgroep (Group) of volledige bedrijfsaccount in te schakelen. Zoom publiceerde een document met gedetailleerde stappenplannen voor het proces. Na afronding hebben gebruikers de mogelijkheid om de spraak van meetings als ondertitelde tekst weer te geven. Zoom benadrukt dat haar platform met de toevoeging toegankelijker is voor slechthorenden.

Voor nu dient de functie uitsluitend voor Engelse gesprekken. Ondersteuning van meerdere talen is in de nabije toekomst te verwachten, maar nog niet officieel bevestigd.

Op detailniveau

Voor Auto-Generated Captions staat technologie voor stemherkenning aan de basis. Bijbehorende ontwikkeling bevindt zich in een wereldwijde stroomversnelling. Alexa, Siri, Google Assistent en Zooms functie hebben dezelfde ondergrond in gemeen: Natural Language Processing (NLP). Vastgestelde taalregels, statistieken, ML- en deep learning-modellen worden in een applicatie verwerkt om de betekenis van menselijke klanken, ofwel spraak, te herkennen. Slaagt de applicatie in nauwkeurige herkenning, dan kan daar een actie aan gekoppeld worden. Bijvoorbeeld de presentatie van ondertiteling, zoals bij Zooms Auto-Generated Captions het geval is. Of de bestelling van een pak melk, waarin onder andere Alexa uitblinkt.

De roeiriemen voor het ontwikkelen van NLP-applicaties zijn openlijk verkrijgbaar. Zo bevat de open source Natural Language Toolkit (NLTK) een scala aan libraries en informatie voor het ontwikkelen van NLP-applicaties in Python.

Tip: AWS introduceert tool voor analyse van gesprekstranscripties