Meta AI maakt trots het vertaalmodel Seamless Communication bekend. Modellen om gesproken of geschreven teksten te vertalen, kennen we echter al langer. Wat kan dit model dan nog meer?

Seamless Communication is een samenraapsel van drie bestaande modellen: SeamlessExpressive, SeamlessStreaming en SeamlessM4T v2. Het model kan hierdoor vertalen en heeft daarbij, dankzij SeamlessExpressive, ook oog voor de non-verbale communicatie van de spreker.

De vertaling wordt aangeleverd in gesproken vorm om de non-verbale communicatie te behouden. Het model kan zijn functies al inzetten bij meer dan honderd talen.

Emotionele nuances

De meerwaarde van Seamless Communication zit in het kunnen opvangen en vertalen van non-verbale communicatie. De output van het taalmodel krijgt hierdoor een realistischer karakter. Volgens Meta AI maakt deze eigenschap het taalmodel beter geschikt als tolk. “Menselijke spraak en vertaling zijn gevoelig voor nuances zoals het inspelen op een gesprek en het aanvoelen van de juiste timing.”

Het model werkt voor zowel geschreven als gesproken conversaties. Bovendien werkt de vertaler snel, want Meta AI belooft slechts een vertraging van enkele seconden te hebben tussen de gesproken tekst en de vertaling. Dat maakt het model SeamlessStreaming mogelijk.

Tolk en meer

Het gebruik van SeamLess Communication open de onderzoekers in meer vakken terug te zien dan alleen in dit van een tolk. Zo kan het dienen als een eenvoudige manier om een podcast-serie ook in andere talen uit te brengen, zonder dat de spreker hiervoor de opname twee keer moet maken. Hetzelfde geldt natuurlijk voor video.

De onderzoekers zien wel dat de technologie ook ingezet kan worden voor misleidende trucs. Zo zijn phishing-gesprekken bijvoorbeeld nu nog eenvoudig te herkennen aan de vaak gebrekkige taalkennis van de beller. Dat verandert door een taalmodel dat snel vertaalt en bijvoorbeeld rustpauzes in het gesprek laat.

Opengesteld voor ontwikkeling

De onderzoekers hebben SeamLess Communication nu opengezet voor verdere ontwikkeling. Dat geeft ontwikkelaars de mogelijkheid om geschikte tools te bouwen die de mogelijkheden van het taalmodel tot hun recht brengen. De modellen zijn beschikbaar via Hugging Face en Github.

