Google behaalt state-of-the-art NLP-resultaten met grote dataset

Stay tuned, abonneer!

Google heeft naar eigen zeggen state-of-the-art-resultaten behaald bij benchmarks voor natural language processing (NLP). Het NLP-model dat gebruikt werd, is gebaseerd op een nieuwe dataset van het bedrijf, evenals een nieuw framework en model.

Google heeft de afgelopen tijd gewerkt aan een geheel nieuwe dataset genaamd Colossal Clean Crawled Corpus en een framework en model met de naam Text-to-Text Transformer. De combinatie van die twee zet taalproblemen om in een text-to-text format, schrijft Venturebeat.

Hiermee onderzocht Google een nieuwe aanpak om een model te trainen om NLP-taken uit te voeren. Normaal gesproken zorgen ontwikkelaars ervoor dat zo’n model de tekst gaat begrijpen en daar dus de juiste kennis voor in huis heeft. Een model kan bijvoorbeeld getraind worden om te begrijpen wat een woord betekent of om context te begrijpen.

Het team van Google keek nu naar een aanpak waarbij tekst als input werd gebruikt, om vervolgens weer nieuwe tekst als output te genereren. Het team had hetzelfde doel als de eerdere aanpak en ook dezelfde trainingsprocedure voor iedere taak.

Dataset van 750 GB

Voor de training van het model werd een dataset van 750 GB gebruikt. Die set, de Colossal Clean Crawled Corpus, bestaat uit tekst uit het Common Crawl-project. Dat project verzamelt per maand ongeveer 20 TB aan Engelstalige tekst van het internet.

Het team van Google haalde daar de onzin en foutmeldingen uit en zorgde ervoor dat er geen duplicaten in staan. Vervolgens werd de data gebruikt om diverse Transformer-gebaseerde modellen te trainen. Aan de hand daarvan wilde het team de effectiviteit van hun text-to-text-aanpak evalueren.

Transformer-gebaseerde modellen gebruiken een nieuwe neural architecture die door wetenschappers van Google Brain ontwikkeld is.

State-of-the-art score

Het grootste resulterende model had uiteindelijk 11 miljard parameters, die vereist zijn om voorspellingen te doen. Dat model werd afgestemd om verschillende taaltaken uit te voeren.

Het team van Google zegt dat het daarmee een state-of-the-art score heeft behaald op GLUE, de General Language Understanding Evaluation benchmark. Het gaat om een score van maar liefst 89,7.

Het model werd ook getest op SuperGLUE, waarbij taken gegeven worden die voorbij de reikwijdte van huidige NLP-systemen gaan, maar wel op te lossen zijn door sprekers van universitair niveau. Bij deze benchmark behaalde het model bijna de menselijke score, namelijk 89,8.