Microsoft-AI genereert op basis van 200 audioclips realistische spraak

Wetenschappers van Microsoft hebben een kunstmatige intelligentie (AI) systeem beschreven dat ‘unsupervised learning’ (leren zonder toezicht) gebruikt om 99,84 procent nauwkeurigheid van de woordverstaanbaarheid te bereiken, evenals 11,7 procent PER voor automatische spraakherkenning. Het model gebruikte slechts 200 audioclips en bijbehorende transcripts bij zijn training.

Unsupervised learning is een tak van machine learning dat kennis haalt uit ongelabelde, ongeclassificeerde en ongecategoriseerd testdata. De wetenschappers konden hun AI-systeem met deze techniek ontwikkelen dankzij Transformers, weet Venturebeat.

Transformers zijn een type neurale architectuur die in 2017 geïntroduceerd werd in een paper van wetenschappers van Google Brain. Transformers bevatten – net als alle andere diepe neurale netwerken – neuronen, wat wiskundige functies zijn die losjes gemodelleerd zijn naar biologische neuronen. Die neuronen zijn in onderling verbonden lagen geplaatst, die signalen van input-data verzenden. Ook passen ze langzaam de synaptische kracht – de gewichten – van iedere verbinding aan.

Uniek is dat ieder output-element verbonden is met ieder input-element. De gewichten tussen de twee worden dynamisch berekend.

Training en resultaten

De wetenschappers van Microsoft plaatsten een Transformer-component in hun AI-systeemontwerp dat spraak of tekst als input of output kan pakken. Vervolgens gebruikten ze de openbaar beschikbare LJSpeech-dataset – dat 13.100 Engelse audio snippets en transcripts bevat – voor trainingsdata. Hieruit koos het team willekeurig tweehonderd clips om een dataset voor de training te maken. Ook gebruikten ze een denoising audio-encoder-component om corrupte spraak en tekst te herstellen.

De resultaten waren – zeker gezien de kleine groep testdata – behoorlijk goed. De onderzoekers stellen namelijk dat het betere resultaten had dan de drie baseline-algoritmes in de tests. Diverse van de gegenereerde monsters klinken volgens Venturebeat bovendien als mensen.

De wetenschappers willen de limieten van unsupervised learning verder oprekken door alleen ongekoppelde spraak- en tekstdata te gebruiken, met behulp van andere pre-trainingsmethodes. In hun paper stellen ze een voorstel te hebben gedaan voor een methode met vrijwel helemaal geen toezicht voor tekst naar spraak en automatische spraakherkenning, dat een paar gekoppelde spraak- en tekstdata gebruikt en een paar ongekoppelde stukken data.

Topartikelen

Wiz nadert overname Lacework voor een koopje

Microsoft-AI genereert op basis van 200 audioclips realistische spraak

Tags in dit artikel

Training en resultaten

Events - Techcalendar

Microsoft Discovery Workshop Infrastructure & Database Modernization

Red Hat Summit

RSA Conference 2024

Topartikelen

Wiz nadert overname Lacework voor een koopje

Meta onthult krachtig open-source model Llama 3 en chatbot Meta AI

Nieuwste ASML-machine bij Intel is af, nu het testen nog

Hoe ging Phishing-as-a-Service-groep LabHost te werk?

Cisco Hypershield: nieuwe security-architectuur voor nieuwe (en oude) problemen

Laatste nieuws

Hugging Face scoort AI-modellen op medische betrouwbaarheid

Previewversie Microsoft Office LTSC 2024 nu beschikbaar

Microsoft is mogelijk de enige partij met een echte AI-pc deze zomer

VASA-1-model van Microsoft laat foto’s praten

Google consolideert interne teams om sneller met AI te innoveren

De mogelijkheid om iOS-apps via eigen website aan te bieden is er nu echt

Tags in dit artikel

Training en resultaten

Gerelateerde artikelen

Microsoft is mogelijk de enige partij met een echte AI-pc deze zomer

VASA-1-model van Microsoft laat foto’s praten

Franse AI-startup Mistral AI wederom op zoek naar investeerders

RISC-V-chipontwerper Rivos haalt 235 miljoen euro op voor AI-accelerator

Linux Foundation jaagt open-source AI aan met oprichting van OPEA

Events - Techcalendar

Microsoft Discovery Workshop Infrastructure & Database Modernization

Red Hat Summit

RSA Conference 2024

Topartikelen

Wiz nadert overname Lacework voor een koopje

Meta onthult krachtig open-source model Llama 3 en chatbot Meta AI

Nieuwste ASML-machine bij Intel is af, nu het testen nog

Hoe ging Phishing-as-a-Service-groep LabHost te werk?

Cisco Hypershield: nieuwe security-architectuur voor nieuwe (en oude) problemen

Laatste nieuws

Hugging Face scoort AI-modellen op medische betrouwbaarheid

Previewversie Microsoft Office LTSC 2024 nu beschikbaar

Microsoft is mogelijk de enige partij met een echte AI-pc deze zomer

VASA-1-model van Microsoft laat foto’s praten

Google consolideert interne teams om sneller met AI te innoveren

De mogelijkheid om iOS-apps via eigen website aan te bieden is er nu echt