Facebook leert AI spraak herkennen zonder trancriptie

De kunstmatige intelligentie van Facebook kan inmiddels spraakherkenningssystemen ondersteunen. Hierbij is het niet meer nodig om transcripties van bestaande audiodata te gebruiken als training. Dit heeft het AI-team van Facebook bekendgemaakt.

Spraakherkenning is zo’n standaard geworden binnen kunstmatige intelligentie, dat het steeds makkelijker implementeerbaar wordt. Bekende spraakassistenten zoals Google Asisstent en Amazon Alexa maken gebruik van spraakherkenning. Dat doen ze zodat ze begrijpen wat de persoon die praat wil. YouTube maakt er ook gebruik van om automatisch gegenereerde ondertiteling te maken.

Spraakherkenning door AI

Spraakherkenning is populair in talen die veel worden gesproken, zoals Engels, Arabisch, Spaans, Chinees en Frans. Voor de meeste talen is spraakherkenning vaak helemaal niet zo uitgebreid. Dat komt niet door de mensen, maar door het feit dat veel data nu eenmaal in het Engels is, waardoor een systeem dat wordt getraind heel vaak op die taal slimmer wordt.

Facebook is daarop op de proppen gekomen met wav2vec Unsupervised. Het is een methode waardoor je toch nog kwalitatief goede spraakherkenningsmodellen kunt bouwen zonder gelabelde trainingsdata te gebruiken. Facebook-onderzoekers Alexei Baevski, Wei-Ning Hsu en Michael Auli schrijven er het volgende over: “Wav2vec-U is het resultaat van jarenlang werk van Facebook AI op het gebied van spraakherkenning, zelfgestuurd leren en niet-gecontroleerde automatische vertaling. Het is een belangrijke stap in de richting van het bouwen van machines die een breed scala aan taken kunnen oplossen door simpelweg te leren van hun observaties.”

Facebook

De nieuwe uitvinding maakt gebruik van opgenomen spraakaudio en tekst, in tegenstelling tot audiotranscripties. Zo leert het de structuur van de spraak. Er wordt van een algemeen netwerk met een ‘generator’ en een ‘discriminator’ om het model te leren de teksten van de taal te associëren met de audio. In eerste instantie zijn de transcripties heel slecht, maar dankzij de discriminator worden ze steeds beter. Sterker nog, volgens de TIMIT-benchmark zijn fouten met 63 procent verminderd vergeleken bij ongecontroleerde leermethodes. Voorlopig blijft Facebook deze technologie dus doorontwikkelen, want dit kan voor bepaalde talen van groot belang zijn.

Keuze van de redactie

AI werkt pas als de infrastructuur klopt

AI staat volop in de schijnwerpers, maar zonder een robuuste infrastr...

Insight: Agentic AI

Lees meer over Analytics

Top story

Achter de schermen van de Formule E strijdt TCS digitaal mee

De wereld van de Formule E is er een van technologie en snelheid, maar ook duurzaamheid. Precies die combinat...

Erik van Klinken 27 juni 2025

Whitepapers

Facebook leert AI spraak herkennen zonder trancriptie

Spraakherkenning door AI

Facebook

Blijf op de hoogte, abonneer!

AI werkt pas als de infrastructuur klopt

Memory-safe malware: Rust daagt securityonderzoekers uit

IFS neemt TheLoops over: AI-agents voor kritieke industrieën

Bij Salesforce voert AI 30 procent van het werk uit: wat betekent het?

HubSpot: ‘Zie AI Agents niet als werktools, maar als je collega’s’

ServiceNow legt basis voor agentic AI met business transformatie platform

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE

Versterk je cybersecurity met DNS best practices

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Webdevcon