Google maakt spraaktechnologie expressiever

Abonneer je gratis op Techzine!

Er wordt steeds meer gedaan met spraakdiensten. Een klein puntje is nog dat ze lang niet altijd even realistisch klinken en dat virtuele assistenten daardoor wat minder menselijk overkomen dan fabrikanten willen. Een van de manieren waarop ze menselijker gemaakt worden, is het toevoegen van humor. Maar natuurlijk taalgebruik hoort ook tot de manieren. Precies daar heeft Google een nieuwe doorbraak in bewerkstelligd.

Dat melden onderzoekers van het bedrijf in een uitgebreide blog. Hoe de technologie precies werkt leggen ze niet uit, maar wel omschrijven de onderzoekers hun doorbraak. Het gaat om technologie die onder meer intonatie toevoegt aan spraakberichten en daardoor een stuk natuurlijker overkomt.

Natuurlijke Google-spraak

De Google-dienst die spraakmogelijkheden naar ontwikkelaars brengt, heet Tacotron. Die klinkt al erg natuurlijk voor de meeste mensen. In een proef die Google organiseerde onder achthonderd mensen, bleek dat veruit de meeste mensen vonden dat Tacotron menselijk klonk. Maar stress, of de natuurlijke intonatie die menselijke sprekers kiezen, kon nog niet gekopieerd worden.

Door een neuraal netwerk te trainen met opnames van menselijke spraak, kon Tacotron echter aangepast worden. “Attributen als stress, intonatie en timing” konden daardoor wel geuit worden door de technologie. Daardoor konden de onderzoekers de technologie leren om mensen beter te kopiëren.

Google brengt de mogelijkheden binnenkort naar ontwikkelaars die gebruik maken van Tacotron. Vermoedelijk zal de zoekgigant de kennis ook snel integreren in de Google Assistant. Dat is de eigen spraaksoftware, die nog een vrij monotone stem heeft. Maar daar komt verandering in met dit soort technieken.

Overigens is Google lang niet het enge technologiebedrijf dat zijn spraakassistent menselijker wil latenklinken. Apple’s Siri kreeg vorig jaar meer expressie in de stem en ook Alexa van Amazon kreeg dit jaar dat soort mogelijkheden.