Mozilla heeft aangekondigd dat het zijn Common Voice project uitbreidt. Dat crowdfunding-initiatief werd gelanceerd met de bedoeling een open source dataset voor stemherkenning te bouwen. Nu wordt het project naar meer talen uitgebreid.

Mozilla lanceerde Common Voice in juni 2017 en nodigt vrijwilligers wereldwijd uit om stukjes tekst op te nemen. Dat kan via de webapplicatie, maar ook via een mobiele app voor de toepassing. Gevraagd wordt of mensen bepaalde zinnen tekst kunnen inspreken, op basis waarvan de dataset ontwikkeld kan worden.

Vrij toegankelijk

Met Common Voice hanteert Mozilla een andere invalshoek ten aanzien van stemherkenning dan bijvoorbeeld Amazon, Apple, Google en Microsoft. Zij steken miljoenen in de ontwikkeling van virtuele assistenten als Alexa, Cortana, Google Assistant en Siri, maar houden de datasets voor zichzelf.

Mozilla vindt het echter een beter idee om de ontwikkeling van dit soort datasets open source te maken. Daarom lanceerde het in november een dataset rond het Engels. Ondertussen is er door 20.000 individuen een totaal van 400.000 opnames gemaakt, samen goed voor vijfhonderd uur aan spraakgegevens.

Vandaag breidt Mozilla dan ook het project uit naar drie andere talen: Duits, Frans en – vrij willekeurig – het Welsh. Er worden voorbereidingen getroffen om nog eens veertig tallen toe te voegen, waaronder Nederlands, Braziliaans-Portugees, Taiwanees-Chinees, Indonesisch en Pools. Wanneer Mozilla precies klaar is om daarmee te beginnen is niet zeker.

Door meerdere talen toe te voegen aan Common Voice, hoopt Mozilla volgens digitaal strateeg Michael Henretty “dat het een grote stap voorwaarts betekent voor spraaktechnologie in het algemeen”. Henretty stelt dat betekent dat de barrière voor wereldwijde innovatie makkelijker te overwinnen is.