Nieuwe text-to-speech engine van AWS klinkt als nieuwslezer

Amazon Web Services (AWS) heeft een aantal nieuwe neurale text-to-speech-modellen gelanceerd. Eén van die modellen heeft een stijl die de manier waarop nieuwslezer klinken na moet doen.

AWS stelt dat spraakkwaliteit belangrijk is, maar dat erop meer gedaan kan worden om een synthetische stem realistischer te laten klinken, meldt TechCrunch.

“Menselijke oren kunnen het verschil herkennen tussen bijvoorbeeld een nieuwsuitzending, een sportuitzending en een les op school. De meeste mensen adopteren de juiste spraakstijl voor de juiste context, en dit helpt om het bericht over te krijgen”, aldus het bedrijf.

Amazon Polly Newscaster

De nieuwe nieuwslezerstijl, genaamd Amazon Polly Newscaster, is nu beschikbaar als twee Amerikaanse stemmen. Het gaat om een mannelijke stem genaamd Matthew en een vrouwelijke stem genaamd Joanna. De stemmen worden al ingezet door USA Today en het Canadese The Globe and Mail om teksten voor te lezen.

Volgens Amazon maakt Polly Newscaster de spraak in een nieuwsuitzending realistischer. De stem moet namelijk klinken als wat een gebruiker verwacht bij een TV- of radio-uitzending.

Met Amazon Translate kunnen uitzendingen bovendien automatisch vertaald worden naar een taal die de gebruiker verstaat.

Neural Text-to-Speech

Amazon Polly, de dienst die text naar spraak omzet, heeft daarnaast een nieuwe functie genaamd Neural Text-to-Speech (NTTS). NTTS is het resultaat van jarenlang onderzoek van Amazon naar text-to-speech en de inzet van machine learning.

NTTS levert volgens Amazon zelf significante verbeteringen in spraakkwaliteit. Zo wordt de gesproken tekst natuurlijker en expressiever. De nieuwe engine bevat elf stemmen. Drie zijn voor Brits-Engels (Amy, Emma en Brian) en acht spreken Amerikaans-Engels – Ivy, Joanna, Kendra, Kimberly, Salli, Joey, Justin en Matthew.

De nieuwe functies zijn direct beschikbaar gemaakt in US East (N. Virginia) US West (Oregon) en Europa (Ierland). Er is een gratis abonnement beschikbaar, waarbij 1 miljoen karakters voor NTTS-stemmen per maand voor de eerste twaalf maanden worden aangeboden.