AI-onderzoekers komen met benchmark voor natural language processing

Een groep onderzoekers die zich bezig houden met kunstmatige intelligentie (AI) hebben een benchmarking-platform dat natural language processing (NLP)-mogelijkheden meet gelanceerd. De groep bestaat uit Facebook AI, New York University, DeepMind en de University of Washington.

Het platform – SuperGLUE – bouwt verder op een ouder platform genaamd GLUE. Het nieuwe platform moet een benchmark zijn met allesomvattende, menselijke baselines, aldus Facebook AI. Met het platform moet gemeten worden hoe goed AI taal kan begrijpen en interpreteren, aldus ZDNet.

SuperGLUE werd ontwikkeld omdat dergelijke AI-systemen een “plafond” hadden bereikt bij diverse benchmarks. Ze hadden grotere uitdagingen nodig om hun NLP-mogelijkheden te verbeteren.

SuperGLUE

De SuperGLUE-benchmark gebruikt nieuwe manieren om een reeks moeilijke NLP-taken te testen. Die taken focussen zich op innovaties in een aantal belangrijke gebieden van machine learning, waaronder sample-efficient, transfer, multitask en self-supervised learning.

SuperGLUE gebruikt BERT van Google als een prestatiebaseline. De benchmark zelf bestaat uit acht taken, waaronder een test waarbij plausibele alternatieven gekozen moeten worden (COPA-test) en een test voor causale redenering. Bij die test krijgt het systeem een zin, waarna het moet bepalen wat de oorzaak of het effect van de stelling is aan de hand van twee keuzes.

Na het uitvoeren van de benchmark biedt SuperGLUE een samenvatting in de vorm van een enkel cijfer over de mogelijkheid van de AI om diverse NLP-taken uit te voeren. Mensen kunnen volgens Facebook AI bij de COPA-test een accuraatheid van 100 procent behalen, terwijl Google’s BERT slechts 74 procent haalde. Er is dus nog ruimte voor verbetering.

Lees meer over Analytics

Expert aan het woord

Tech calendar

AI-onderzoekers komen met benchmark voor natural language processing

SuperGLUE

Blijf op de hoogte, abonneer!

Claude Fable 5 is Mythos voor het grote publiek

Hackers kraken ChatGPT’s guardrails met gemak: LLM ontwikkelt krachtige malware

GitHub Copilot, AI-assistent van het eerste uur, staat zwaar onder druk

Buying GPUs doesn't deliver AI value, according to AWS

Cisco's 102.4 terabit chip supercharges AI data centers

groundcover uses eBPF and AI agents to modernize observability

Inside AIDA Cruises' massive floating data centers

De rol van een WMS systeem in de moderne IT-architectuur

Liquid cooling dwingt datacenters tot andere ontwerpkeuzes

Slimmer vergaderen begint met het juiste ecosysteem

De rol van een WMS systeem in de moderne IT-architectuur

VivaTech

GITEX AI EUROPE 2026

GOTO Copenhagen 2026

Tijd om virtualisatie te evalueren

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Zo gaat jouw IT-organisatie van reactief trainen naar roadmap-gedreven skills-opbouw