Amazon heeft een nieuw kunstmatige intelligentie-systeem gemaakt dat digitale spraakassistenten als Alexa binnen een paar uur nieuwe spreekstijlen kan leren. Het gaat bijvoorbeeld om een spreekstijl vergelijkbaar met een nieuwslezer.

Het nieuwe tekst-naar-spraaksysteem kan volgens Trevor Wood, de applied science manager bij Amazon, de traditionele methodes voor spraaktraining vervangen. Bij de traditionele methodes zijn vaak acteurs nodig die tientallen uren op de juiste manier praten om de modellen te trainen.

Wood legt uit dat synthetische spraak geproduceerd door neurale netwerken veel natuurlijker klinkt voor gebruikers dan spraak geproduceerd via traditionele methodes. Bij die laatste vorm worden korte spraakfragmenten in een audio-database aan elkaar gekoppeld. Met de verbeterde flexibiliteit van het systeem, kan Amazon de spraakstijl van synthetische spraak eenvoudig veranderen.

NTTS

Amazon zelf noemt het nieuwe model “neural text-to-speech”, of NTTS. Naar eigen zeggen zijn er twee belangrijke componenten. Eén is een “generative neural network”, dat werkt door reeksen fonemen – stukken geluid die het ene woord van een ander onderscheiden – om te zetten in reeksen aan spectrogrammen. Dat zijn visuele representaties van het spectrum van de frequenties van die geluiden, aangezien die met de tijd veranderen. De spectrogrammen moeten “functies dat het menselijke brein gebruikt om spraak te verwerken benadrukken”, aldus Wood.

Het tweede component is een “vocoder”, dat helpt bij het omzetten van die spectrogrammen naar een continu audiosignaal dat gebruikt wordt om het tekst-naar-spraakmodel te trainen. De nieuwe trainingsmethode kan neurale tekst-naar-spraakdata combineren met een paar uur aan aanvullende data om een model te maken dat het onderscheid kan maken tussen spraakelementen die uniek zijn aan een specifieke spraakstijl.

Volgens Wood toont het onderzoek van Amazon aan dat luisteraars een grote voorkeur hebben voor de stemmen die door NTTS werden gemaakt. De methode werd zelfs bijna even hoog beoordeeld als de normale menselijke spraak.