Microsoft-AI genereert op basis van 200 audioclips realistische spraak

Wetenschappers van Microsoft hebben een kunstmatige intelligentie (AI) systeem beschreven dat ‘unsupervised learning’ (leren zonder toezicht) gebruikt om 99,84 procent nauwkeurigheid van de woordverstaanbaarheid te bereiken, evenals 11,7 procent PER voor automatische spraakherkenning. Het model gebruikte slechts 200 audioclips en bijbehorende transcripts bij zijn training. 

Unsupervised learning is een tak van machine learning dat kennis haalt uit ongelabelde, ongeclassificeerde en ongecategoriseerd testdata. De wetenschappers konden hun AI-systeem met deze techniek ontwikkelen dankzij Transformers, weet Venturebeat.

Transformers zijn een type neurale architectuur die in 2017 geïntroduceerd werd in een paper van wetenschappers van Google Brain. Transformers bevatten – net als alle andere diepe neurale netwerken – neuronen, wat wiskundige functies zijn die losjes gemodelleerd zijn naar biologische neuronen. Die neuronen zijn in onderling verbonden lagen geplaatst, die signalen van input-data verzenden. Ook passen ze langzaam de synaptische kracht – de gewichten – van iedere verbinding aan.

Uniek is dat ieder output-element verbonden is met ieder input-element. De gewichten tussen de twee worden dynamisch berekend.

Training en resultaten

De wetenschappers van Microsoft plaatsten een Transformer-component in hun AI-systeemontwerp dat spraak of tekst als input of output kan pakken. Vervolgens gebruikten ze de openbaar beschikbare LJSpeech-dataset – dat 13.100 Engelse audio snippets en transcripts bevat – voor trainingsdata. Hieruit koos het team willekeurig tweehonderd clips om een dataset voor de training te maken. Ook gebruikten ze een denoising audio-encoder-component om corrupte spraak en tekst te herstellen.

De resultaten waren – zeker gezien de kleine groep testdata – behoorlijk goed. De onderzoekers stellen namelijk dat het betere resultaten had dan de drie baseline-algoritmes in de tests. Diverse van de gegenereerde monsters klinken volgens Venturebeat bovendien als mensen.

De wetenschappers willen de limieten van unsupervised learning verder oprekken door alleen ongekoppelde spraak- en tekstdata te gebruiken, met behulp van andere pre-trainingsmethodes. In hun paper stellen ze een voorstel te hebben gedaan voor een methode met vrijwel helemaal geen toezicht voor tekst naar spraak en automatische spraakherkenning, dat een paar gekoppelde spraak- en tekstdata gebruikt en een paar ongekoppelde stukken data.