AI-systeem Amazon traint robots om te praten als nieuwslezer

Amazon heeft een nieuw kunstmatige intelligentie-systeem gemaakt dat digitale spraakassistenten als Alexa binnen een paar uur nieuwe spreekstijlen kan leren. Het gaat bijvoorbeeld om een spreekstijl vergelijkbaar met een nieuwslezer.

Het nieuwe tekst-naar-spraaksysteem kan volgens Trevor Wood, de applied science manager bij Amazon, de traditionele methodes voor spraaktraining vervangen. Bij de traditionele methodes zijn vaak acteurs nodig die tientallen uren op de juiste manier praten om de modellen te trainen.

Wood legt uit dat synthetische spraak geproduceerd door neurale netwerken veel natuurlijker klinkt voor gebruikers dan spraak geproduceerd via traditionele methodes. Bij die laatste vorm worden korte spraakfragmenten in een audio-database aan elkaar gekoppeld. Met de verbeterde flexibiliteit van het systeem, kan Amazon de spraakstijl van synthetische spraak eenvoudig veranderen.

NTTS

Amazon zelf noemt het nieuwe model “neural text-to-speech”, of NTTS. Naar eigen zeggen zijn er twee belangrijke componenten. Eén is een “generative neural network”, dat werkt door reeksen fonemen – stukken geluid die het ene woord van een ander onderscheiden – om te zetten in reeksen aan spectrogrammen. Dat zijn visuele representaties van het spectrum van de frequenties van die geluiden, aangezien die met de tijd veranderen. De spectrogrammen moeten “functies dat het menselijke brein gebruikt om spraak te verwerken benadrukken”, aldus Wood.

Het tweede component is een “vocoder”, dat helpt bij het omzetten van die spectrogrammen naar een continu audiosignaal dat gebruikt wordt om het tekst-naar-spraakmodel te trainen. De nieuwe trainingsmethode kan neurale tekst-naar-spraakdata combineren met een paar uur aan aanvullende data om een model te maken dat het onderscheid kan maken tussen spraakelementen die uniek zijn aan een specifieke spraakstijl.

Volgens Wood toont het onderzoek van Amazon aan dat luisteraars een grote voorkeur hebben voor de stemmen die door NTTS werden gemaakt. De methode werd zelfs bijna even hoog beoordeeld als de normale menselijke spraak.

Keuze van de redactie

Insight: Data Fabrics

Lees meer over Analytics

Top story

Achter de schermen van de Formule E strijdt TCS digitaal mee

De wereld van de Formule E is er een van technologie en snelheid, maar ook duurzaamheid. Precies die combinat...

Erik van Klinken 27 juni 2025

Whitepapers

AI-systeem Amazon traint robots om te praten als nieuwslezer

NTTS

Blijf op de hoogte, abonneer!

Memory-safe malware: Rust daagt securityonderzoekers uit

Achter de schermen van de Formule E strijdt TCS digitaal mee

Siemens voegt AI-copilot en VR-functies toe aan NX-software

HPE rondt overname Juniper Networks af

Nieuwe Alteryx-release haalt muren neer tussen clouddiensten en datasets

Wikidata ontsluit eigen kennisbank door vectorizeren van data

Haal zoveel mogelijk waarde uit je data, van de edge tot de cloud

Appian’s Data Fabric haalt meer uit data, waar die ook staat

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE

Versterk je cybersecurity met DNS best practices

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Webdevcon