Vertalen en transcriberen in bijna 100 talen met Meta's nieuwe AI-model

Meta, het moederbedrijf van Facebook, Instagram en WhatsApp, heeft een nieuw AI-model ontwikkeld en gedoneerd aan de open source-community. Het model draagt de naam SeamlessM4T en hiermee kan tekst en spraak worden getranscribeerd en vertaald in bijna 100 talen. Volgens Meta is het een doorbraak waarmee vertaal en transcribeer tools naar een veel hoger niveau kunnen worden gebracht.

Met SeamlessM4T kunnen er volgens Meta grote stappen worden gezet op het gebied van speech-to-speech maar ook speech-to-tekst. De belangrijkste doorbraak met dit model is toch wel dat het één enkel model is voor bijna 100 talen. Het model kan daardoor zelf de taal detecteren en omzetten, zonder dat hiervoor weer een ander model moet worden benadert. Dit zorgt voor razendsnelle vertalingen, waardoor mensen in realtime in verschillende talen met elkaar kunnen communiceren.

Meta lijkt hiermee een zeer krachtig model in handen te hebben en het is dan ook bijzonder dat het dit open source maakt. Veel andere techgiganten zijn ook bezig met dergelijke oplossingen. Zo werkt Google aan het Universal Speech Model, een model dat straks uiteindelijk 1000 talen moet gaan ondersteunen. Ook Amazon en Microsoft blijven niet achter op dit gebied, uiteindelijk bieden zij allemaal vertaaldiensten aan waar veelvuldig gebruik van wordt gemaakt.

Meta heeft met SeamlessM4T een opvolger voor het No Language Left Behind project waar we vorig jaar al eens over schreven. Het doel was toen om met minimale input een taalmodel te ontwikkelen. Nu is er dus één model voor alle talen.

Data van model?

Het is overigens nog wel onduidelijk welke data Meta precies heeft gebruikt om zijn model mee te ontwikkelen. Het stelt dat het gaat om publiekelijk beschikbare data. Techcrunch heeft hier vragen over gesteld, maar kreeg geen eenduidig antwoord. Wel dat het om tientallen miljarden zinnen gaat en meer dan 4 miljoen uur aan spraak van het internet. Er lopen inmiddels al verschillende rechtszaken omdat makers van content niet zo blij zijn dat hun materiaal wordt gebruikt om modellen te ontwikkelen die in veel gevallen later worden gebruikt in commerciële producten. Dat betekent dat een derde partij geld verdiend met hun creatie.

Meta liet wel weten dat het geen materiaal heeft gebruikt waar copyright op zit. Dat het voornamelijk gaat om open source en gelicenseerde bronnen.

Lees meer over Analytics

Expert aan het woord

Tech calendar

Vertalen en transcriberen in bijna 100 talen met Meta’s nieuwe AI-model

Data van model?

Blijf op de hoogte, abonneer!

SpaceX koopt Cursor voor 60 miljard

Post-Mythos security is ook nog heel erg pre-Mythos security

Claude-maker Anthropic lijkt OpenAI voor te zijn met beursgang

AI zet decennia cybersecurity op zijn kop

Buying GPUs doesn't deliver AI value, according to AWS

What sets Vultr apart from the hyperscalers and neoclouds?

How Falco catches threats that static analysis misses

Why only 25% of teams are ready for the Cyber Resilience Act

De strategische opdracht: bouwen aan een AI-stack waar Europa op kan vertrouwen

De rol van een WMS systeem in de moderne IT-architectuur

Liquid cooling dwingt datacenters tot andere ontwerpkeuzes

Slimmer vergaderen begint met het juiste ecosysteem

GITEX AI EUROPE 2026

GOTO Copenhagen 2026

Tijd om virtualisatie te evalueren

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Zo gaat jouw IT-organisatie van reactief trainen naar roadmap-gedreven skills-opbouw