Amazon ontwikkelt natuurlijker klinkend text-to-speech-model Base TTS

Onderzoekers van Amazon hebben onlangs de details gepubliceerd van een nieuw tekst-naar-spraak-model, genaamd Base TTS. Dit model zou woorden natuurlijker laten klinken dan eerdere neurale netwerken.

Uit de paper blijkt dat het nieuwe Base TTS-model het grootste neurale netwerk tot nu toe is in de categorie van tekst-naar-spraak-modellen. De meest geavanceerde versie van het model is gebaseerd op ongeveer 1 miljard parameters. Hoe groter het aantal parameters, hoe meer taken een AI-model naar verwachting kan uitvoeren.

Het Base TTS-model is getraind op 100.000 uur aan op het internet openbaar beschikbare audio-bestanden. Ongeveer 90 procent van deze audiofragmenten was in het Engels.

Betere kwaliteit uitspraak

Het model, zo geven de onderzoekers verder aan, slaagt erin de kwaliteit van de uitspraak van woorden beter te doen dan eerdere tekst-naar-spraak-modellen. Uit de evaluatie van het model door taalkenners zou zijn gebleken dat het Base TTS-model bijvoorbeeld het ‘@-teken’ en andere symbolen, paralinguïstische geluiden als ‘shh’ succesvol zou uitspreken.

Ook slaagde het model erin luid Engelstalige zinnen uit te spreken die buitenlandse woorden en vragen bevatten. Het model zou deze taken hebben volbracht, hoewel het niet specifiek was getraind op verschillende types zinnen die in de evaluatiedataset werden toegepast.

Twee AI-modellen

Onder de motorkap draait het revolutionaire tekst-naar-spraakmodel van Amazon op een tweetal aparte AI-modellen. Het eerste model, gebaseerd op de Transformer-architectuur die weer GPT-4 als basis heeft, verandert de ingevoerde tekst in abstracte wiskundige ‘vertegenwoordigingen’ of ‘speech codecs’.

Dit model zorgt er daarnaast ook voor dat de speech codecs worden gecomprimeerd, waardoor de verwerking sneller gaat. Ook helpt dit model om ongewenste elementen, zoals achtergrondgeluid, uit de uiteindelijke Base TTS-audio te weren.

Het tweede neurale netwerk transformeert deze speech codecs vervolgens in audio. Dit gebeurt door data om te zetten in spectrogrammen. Dit zijn grafieken die worden gebruikt om geluidsgolven te visualiseren. Deze grafieken kunnen eenvoudig in door AI gegenereerde spraak worden omgezet.

Een bruikbare applicatie op basis van het Base TTS-model van Amazon bestaat op dit moment nog niet.

Tip: Nieuw OpenAI-model Sora kan video’s genereren