AI van IBM genereert stem op basis van korte gesprekken

Stay tuned, abonneer!

Onderzoekers van IBM hebben een nieuwe lichtgewicht en modulaire methode ontwikkeld voor het genereren van spraak. Volgens de onderzoekers is het nu moeilijk om spraak van hoge kwaliteit in real-time te genereren, door verschillende aspecten van de stem van een spreker aan te leren. 

Met de methode wordt het dus mogelijk om modellen aan te passen op nieuwe spraakstijlen en stemmen, aan de hand van kleine hoeveelheden data. Dat meldt Venturebeat

Dat is een grote doorbraak, aangezien de meeste Text-to-Speech (TTS) systemen grote en complexe neural network-modellen nodig hebben om spraak van hoge kwaliteit te produceren, vertellen onderzoekers Zvi Kons, Slava Shechtman en Alex Sorin. 

Die modellen zijn moeilijk om te trainen en maken het niet mogelijk om in real-time spraak te genereren, zelfs wanneer er GPU’s worden ingezet. “Om die uitdagingen aan te pakken heeft ons team een nieuwe methode ontwikkeld voor neural speech synthesis, op basis van een modulaire architectuur.”

Drie verbonden delen

Het team van IBM heeft een systeem gemaakt dat bestaat uit drie onderling verbonden delen. Het gaat om een prosody feature predictor, een acoustic feature predictor en een neural vocoder. 

De prosody prediction leert over de duur, hoogte en energie van de spraakmonsters, om zo de stijl van de spreker beter te representeren. De akoestische functie maakt representaties van de stem van de spreker in de training of adaptation data. De vocoder genereert tot slot spraakmonsters van de akoestische functies. 

Al die componenten werken samen om een gesynthetiseerde stem aan te passen via retraining, op basis van een kleine hoeveelheid data van de spreker. 

Vijf minuten

De onderzoekers hebben de methode ook getest. Daarbij vroegen ze vrijwilligers om paren van gegenereerde en natuurlijke spraakmonsters te beluisteren en de kwaliteit hiervan de bepalen. Volgens het team behoudt het model hoge kwaliteit en vergelijkbaarheid met de originele spreker nog bij stemmen die getraind zijn op slechts vijf minuten aan spraak.

Het onderzoek is de basis voor de nieuwe Watson TTS-dienst van IBM.