2min

Google Cloud heeft aangekondigd zijn tekst-naar-spraak-producten te updaten met meer stemmen en meer talen. Ook wordt de kwaliteit van zijn transcriptie-tools verbeterd en worden een aantal van die functies algemeen beschikbaar. 

Voor Text-to-Speech heeft Google het aantal stemmen die beschikbaar zijn sinds de update in augustus vrijwel verdubbeld. Ook is ondersteuning toegevoegd voor zeven nieuwe talen of varianten, waaronder Deens, Portugees, Russisch, Pools, Slowaaks, Oekraïens en Noors Bokmål. Al die talen zitten nog in een bètaversie. In totaal worden er nu 21 talen ondersteund.

Voor die nieuwe talen heeft Google 31 nieuwe WaveNet-stemmen en 24 nieuwe standaard stemmen toegevoegd. Daarmee worden er nu naar eigen zeggen 106 stemmen ondersteund. WaveNet is een diep neuraal netwerk voor het genereren van rauwe audio, wat stemmen creëert die natuurlijker klinken dan standaard tekst-naar-spraak-stemmen. De technologie werd ontwikkeld door DeepMind, het AI-bedrijf dat Google in 2014 overnam.

“Dankzij de unieke toegang tot WaveNet-technologie aangestuurd door Google Cloud TPU’s, kunnen we nu nieuwe stemmen en talen sneller en eenvoudiger bouwen dan normaal is in de industrie”, aldus product manager Dan Aharon. De voornaamste concurrentie voor de tekst-naar-spraak-diensten is AWS’s Polly. Polly ondersteunt nu 58 stemmen.

Device Profiles

Ook heeft Google nu de functie Device Profiles algemeen beschikbaar gemaakt voor Speech-To-Text. Daarmee kunnen gebruikers audio playback optimaliseren op diverse soorten hardware. Denk hierbij aan koptelefoons, waarbij de audio geoptimaliseerd wordt voor applicaties als podcasts.

Ook worden er premium modellen voor video en enhanced phone algemeen beschikbaar gemaakt. Het video-model is gebaseerd op technologie vergelijkbaar met wat YouTube gebruikt voor automatische ondertiteling. Volgens Google heeft de technologie nu 64 procent minder fouten in de transcriptie. Het model voor enhanced phone heeft er 62 procent minder.

De modellen konden verbeterd worden door van klanten die premium diensten gebruiken te vereisen om gebruikersdata te delen via data logging. Vanaf nu kunnen gebruikers het enhanced phone-model gebruiken zonder data te delen, al moet er dan wel meer betaald worden.