Google behaalt state-of-the-art NLP-resultaten met grote dataset

Google heeft naar eigen zeggen state-of-the-art-resultaten behaald bij benchmarks voor natural language processing (NLP). Het NLP-model dat gebruikt werd, is gebaseerd op een nieuwe dataset van het bedrijf, evenals een nieuw framework en model.

Google heeft de afgelopen tijd gewerkt aan een geheel nieuwe dataset genaamd Colossal Clean Crawled Corpus en een framework en model met de naam Text-to-Text Transformer. De combinatie van die twee zet taalproblemen om in een text-to-text format, schrijft Venturebeat.

Hiermee onderzocht Google een nieuwe aanpak om een model te trainen om NLP-taken uit te voeren. Normaal gesproken zorgen ontwikkelaars ervoor dat zo’n model de tekst gaat begrijpen en daar dus de juiste kennis voor in huis heeft. Een model kan bijvoorbeeld getraind worden om te begrijpen wat een woord betekent of om context te begrijpen.

Het team van Google keek nu naar een aanpak waarbij tekst als input werd gebruikt, om vervolgens weer nieuwe tekst als output te genereren. Het team had hetzelfde doel als de eerdere aanpak en ook dezelfde trainingsprocedure voor iedere taak.

Dataset van 750 GB

Voor de training van het model werd een dataset van 750 GB gebruikt. Die set, de Colossal Clean Crawled Corpus, bestaat uit tekst uit het Common Crawl-project. Dat project verzamelt per maand ongeveer 20 TB aan Engelstalige tekst van het internet.

Het team van Google haalde daar de onzin en foutmeldingen uit en zorgde ervoor dat er geen duplicaten in staan. Vervolgens werd de data gebruikt om diverse Transformer-gebaseerde modellen te trainen. Aan de hand daarvan wilde het team de effectiviteit van hun text-to-text-aanpak evalueren.

Transformer-gebaseerde modellen gebruiken een nieuwe neural architecture die door wetenschappers van Google Brain ontwikkeld is.

State-of-the-art score

Het grootste resulterende model had uiteindelijk 11 miljard parameters, die vereist zijn om voorspellingen te doen. Dat model werd afgestemd om verschillende taaltaken uit te voeren.

Het team van Google zegt dat het daarmee een state-of-the-art score heeft behaald op GLUE, de General Language Understanding Evaluation benchmark. Het gaat om een score van maar liefst 89,7.

Het model werd ook getest op SuperGLUE, waarbij taken gegeven worden die voorbij de reikwijdte van huidige NLP-systemen gaan, maar wel op te lossen zijn door sprekers van universitair niveau. Bij deze benchmark behaalde het model bijna de menselijke score, namelijk 89,8.

Keuze van de redactie

Insight: IT in Retail

Top story

Cognizant en Google Cloud slaan brug tussen AI-visie en praktijk met AI-lab

Cognizant heeft in samenwerking met Google Cloud een AI-lab ontwikkeld in Amsterdam. Bart Moens (Solutions Sp...

Coen van Eenbergen 7 juli 2025

Whitepapers

Google behaalt state-of-the-art NLP-resultaten met grote dataset

Dataset van 750 GB

State-of-the-art score

Blijf op de hoogte, abonneer!

Ingram Micro krabbelt langzaam op na ransomware-aanval

Cognizant en Google Cloud slaan brug tussen AI-visie en praktijk met AI-lab

Wat weten we over SafePay, de Ingram Micro-aanvallers?

Vijf redenen waarom AI in je ERP-systeem onmisbaar is voor duurzame retailorganisatie

Aanbieder van e-commerceoplossingen zet eigen portfolio in de etalage

Sligro-CISO gebruikt NIST-framework om met management te communiceren

Slimme camera’s schudden retail op

Hoe maak je duurzaamheid echt praktisch?

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE

Krijg Volledig Inzicht van Gebruiker tot Cloud met Cisco ThousandEyes

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon