Google Cloud brengt een reeks updates naar zijn Text-to-Speech en Speech-to-Text APIs. Die brengen onder meer ondersteuning voor meer talen met zich mee. Ook wordt het gemakkelijker om automatisch gegenereerde stemmen op verschillende speakers te horen en worden transscripts beter dankzij vernieuwde tools voor spraakherkenning.

Middels deze update maakt Google, zo meldt de site TechCrunch vandaag, de Text-to-Speech en Speech-to-Text ook algemeen beschikbaar. Voor ontwikkelaars is de belangrijkste toevoeging aan deze nieuwe release de komst van zeventien nieuwe WaveNet-stemmen in een aantal nieuwe talen.

Meer stemmen en audioprofielen

WaveNet is de technologie die Google gebruikt voor machine learning en om text-to-speech audiobestanden mee te maken. Het resultaat is een natuurlijk klinkende stem. Die ondersteunt vanaf nu veertien talen, maar ook een totaal van dertig standaardstemmen en zesentwintig WaveNet-stemmen.

Mooi aan deze nieuwe release, is de bèta van audioprofielen. Het idee is dat ontwikkelaars audiobestanden nu kunnen optimaliseren voor de media waarop ze de bestanden willen afspelen. Dat moet zorgen voor beter geluid op verschillende apparaten. De speaker van je telefoon werkt immers anders dan die op je televisie. Zo kan je zorgen dat het geluid altijd mooi en goed is.

Transcriptie werkt beter

Wat Speech-to-Text betreft, maakt Google het makkelijker voor ontwikkelaars om teksten te transcriberen, ook als er meerdere speakers zijn. Middels machine learning kan de dienst nu herkennen wat de verschillende speakers zijn. Ook krijgt elk woord dat geregistreerd wordt een nummer dat correspondeert met een speaker.

Nieuw is ook de ondersteuning voor meerdere talen. Ontwikkelaars kunnen tot vier talen tegelijk selecteren voor de Speech-to-Text API. Die stelt automatisch vast in welke van de vier talen gesproken wordt. Tot slot zijn er nu bij transscripties zekerheidsscores te zien. Zo laat de API zien hoe zeker deze is van de uitgeschreven teksten.