Google komt met flinke updates voor spraakdiensten

Google Cloud brengt een reeks updates naar zijn Text-to-Speech en Speech-to-Text APIs. Die brengen onder meer ondersteuning voor meer talen met zich mee. Ook wordt het gemakkelijker om automatisch gegenereerde stemmen op verschillende speakers te horen en worden transscripts beter dankzij vernieuwde tools voor spraakherkenning.

Middels deze update maakt Google, zo meldt de site TechCrunch vandaag, de Text-to-Speech en Speech-to-Text ook algemeen beschikbaar. Voor ontwikkelaars is de belangrijkste toevoeging aan deze nieuwe release de komst van zeventien nieuwe WaveNet-stemmen in een aantal nieuwe talen.

Meer stemmen en audioprofielen

WaveNet is de technologie die Google gebruikt voor machine learning en om text-to-speech audiobestanden mee te maken. Het resultaat is een natuurlijk klinkende stem. Die ondersteunt vanaf nu veertien talen, maar ook een totaal van dertig standaardstemmen en zesentwintig WaveNet-stemmen.

Mooi aan deze nieuwe release, is de bèta van audioprofielen. Het idee is dat ontwikkelaars audiobestanden nu kunnen optimaliseren voor de media waarop ze de bestanden willen afspelen. Dat moet zorgen voor beter geluid op verschillende apparaten. De speaker van je telefoon werkt immers anders dan die op je televisie. Zo kan je zorgen dat het geluid altijd mooi en goed is.

Transcriptie werkt beter

Wat Speech-to-Text betreft, maakt Google het makkelijker voor ontwikkelaars om teksten te transcriberen, ook als er meerdere speakers zijn. Middels machine learning kan de dienst nu herkennen wat de verschillende speakers zijn. Ook krijgt elk woord dat geregistreerd wordt een nummer dat correspondeert met een speaker.

Nieuw is ook de ondersteuning voor meerdere talen. Ontwikkelaars kunnen tot vier talen tegelijk selecteren voor de Speech-to-Text API. Die stelt automatisch vast in welke van de vier talen gesproken wordt. Tot slot zijn er nu bij transscripties zekerheidsscores te zien. Zo laat de API zien hoe zeker deze is van de uitgeschreven teksten.

Lees meer over Data Management

Topartikel

Expert aan het woord

Google komt met flinke updates voor spraakdiensten

Meer stemmen en audioprofielen

Transcriptie werkt beter

Blijf op de hoogte, abonneer!

Chris Wright: Metal-to-agent staat aan de basis van schaalbare enterprise AI

Claude-maker Anthropic lijkt OpenAI voor te zijn met beursgang

Nederlands ToqanClaw is Europees OpenClaw-alternatief

Scaling at speed: Hoe AI de blauwdruk van het moderne datacenter herschrijft

How HPE brought two networking giants together in under one year

How Harness secures AI-generated code across the SDLC

groundcover uses eBPF and AI agents to modernize observability

Why observability is critical for AI code generation success

AI-security begint in de boardroom

AMD “Helios”: Rack-scale AI-infrastructuur voor ondernemingen in EMEA

De strategische opdracht: bouwen aan een AI-stack waar Europa op kan vertrouwen

De rol van een WMS systeem in de moderne IT-architectuur

GITEX AI EUROPE 2026

GOTO Copenhagen 2026

Tijd om virtualisatie te evalueren

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Zo gaat jouw IT-organisatie van reactief trainen naar roadmap-gedreven skills-opbouw