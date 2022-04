Amazon brengt de nieuwe dataset MASSIVE op de markt. Hiermee wil het Natural Language Understanding (NLU) naar een hoger niveau tillen. Bedrijven kunnen de dataset gebruiken om virtuele assistenten obscure taal te laten interpreteren.

MASSIVE is een parallelle dataset, legt Amazon uit. Voor de dataset betekent het dat een miljoen gesproken woorden en uitspraken kent in 51 verschillende talen. Het gaat hierbij om talen waar nu vaak nog een gebrek aan gelabelde data voor is. Met MASSIVE moeten ontwikkelaars een dataset krijgen om wel AI-modellen voor een bredere toepasbaarheid te trainen. Het doel is om voor de minder gesproken talen een zelfde niveau natuurlijke spraak-ondersteuning te bereiken zoals nu de veel gesproken talen bereiken.

Gebrek aan trainingsdata aanpakken

Modellen kunnen dat niveau bereiken met massively multilingual natural language understanding (MMNLU). Met MMNLU ontleden en begrijpen de modellen data inputs uit verschillende talen. Het model kan ook kennis over talen met veel trainingsdata delen met talen waar juist weinig data over beschikbaar is.

Amazon noemt MASSIVE in het bijzonder geschikt voor het verbeteren van het begrijpen van gesproken taal. Met andere woorden, het omzetten van audio naar tekst voordat NLU toegepast wordt. Virtuele assistenten gebruiken vaak spoken-language understanding om stemcommando’s te begrijpen, maar begrijpen daardoor een select aantal talen vanwege het gebrek aan trainingsdata.

Gehoopt wordt dat MASSIVE het gebrek aan data op een goede manier aanpakt met de aanwezigheid van een miljoen gesproken woorden en uitspraken in de verschillende talen. Om deze dataset te verwezenlijken, hielpen professionele vertalers bij het omzetten en lokaliseren van de taal. De ontwikkelde modellen moeten uiteindelijk eenvoudig te generaliseren zijn voor nieuwe talen.

Amazon heeft MASSIVE per direct beschikbaar gemaakt op GitHub, inclusief de bijbehorende tools. Daarnaast start Amazon een competitie om het gebruik van de dataset aan te moedigen en een model ermee te trainen.

