De kunstmatige intelligentie van Facebook kan inmiddels spraakherkenningssystemen ondersteunen. Hierbij is het niet meer nodig om transcripties van bestaande audiodata te gebruiken als training. Dit heeft het AI-team van Facebook bekendgemaakt.
Spraakherkenning is zo’n standaard geworden binnen kunstmatige intelligentie, dat het steeds makkelijker implementeerbaar wordt. Bekende spraakassistenten zoals Google Asisstent en Amazon Alexa maken gebruik van spraakherkenning. Dat doen ze zodat ze begrijpen wat de persoon die praat wil. YouTube maakt er ook gebruik van om automatisch gegenereerde ondertiteling te maken.
Spraakherkenning door AI
Spraakherkenning is populair in talen die veel worden gesproken, zoals Engels, Arabisch, Spaans, Chinees en Frans. Voor de meeste talen is spraakherkenning vaak helemaal niet zo uitgebreid. Dat komt niet door de mensen, maar door het feit dat veel data nu eenmaal in het Engels is, waardoor een systeem dat wordt getraind heel vaak op die taal slimmer wordt.
Facebook is daarop op de proppen gekomen met wav2vec Unsupervised. Het is een methode waardoor je toch nog kwalitatief goede spraakherkenningsmodellen kunt bouwen zonder gelabelde trainingsdata te gebruiken. Facebook-onderzoekers Alexei Baevski, Wei-Ning Hsu en Michael Auli schrijven er het volgende over: “Wav2vec-U is het resultaat van jarenlang werk van Facebook AI op het gebied van spraakherkenning, zelfgestuurd leren en niet-gecontroleerde automatische vertaling. Het is een belangrijke stap in de richting van het bouwen van machines die een breed scala aan taken kunnen oplossen door simpelweg te leren van hun observaties.”
De nieuwe uitvinding maakt gebruik van opgenomen spraakaudio en tekst, in tegenstelling tot audiotranscripties. Zo leert het de structuur van de spraak. Er wordt van een algemeen netwerk met een ‘generator’ en een ‘discriminator’ om het model te leren de teksten van de taal te associëren met de audio. In eerste instantie zijn de transcripties heel slecht, maar dankzij de discriminator worden ze steeds beter. Sterker nog, volgens de TIMIT-benchmark zijn fouten met 63 procent verminderd vergeleken bij ongecontroleerde leermethodes. Voorlopig blijft Facebook deze technologie dus doorontwikkelen, want dit kan voor bepaalde talen van groot belang zijn.