AI-onderzoekers komen met benchmark voor natural language processing

Een groep onderzoekers die zich bezig houden met kunstmatige intelligentie (AI) hebben een benchmarking-platform dat natural language processing (NLP)-mogelijkheden meet gelanceerd. De groep bestaat uit Facebook AI, New York University, DeepMind en de University of Washington.

Het platform – SuperGLUE – bouwt verder op een ouder platform genaamd GLUE. Het nieuwe platform moet een benchmark zijn met allesomvattende, menselijke baselines, aldus Facebook AI. Met het platform moet gemeten worden hoe goed AI taal kan begrijpen en interpreteren, aldus ZDNet.

SuperGLUE werd ontwikkeld omdat dergelijke AI-systemen een “plafond” hadden bereikt bij diverse benchmarks. Ze hadden grotere uitdagingen nodig om hun NLP-mogelijkheden te verbeteren.

SuperGLUE

De SuperGLUE-benchmark gebruikt nieuwe manieren om een reeks moeilijke NLP-taken te testen. Die taken focussen zich op innovaties in een aantal belangrijke gebieden van machine learning, waaronder sample-efficient, transfer, multitask en self-supervised learning.

SuperGLUE gebruikt BERT van Google als een prestatiebaseline. De benchmark zelf bestaat uit acht taken, waaronder een test waarbij plausibele alternatieven gekozen moeten worden (COPA-test) en een test voor causale redenering. Bij die test krijgt het systeem een zin, waarna het moet bepalen wat de oorzaak of het effect van de stelling is aan de hand van twee keuzes.

Na het uitvoeren van de benchmark biedt SuperGLUE een samenvatting in de vorm van een enkel cijfer over de mogelijkheid van de AI om diverse NLP-taken uit te voeren. Mensen kunnen volgens Facebook AI bij de COPA-test een accuraatheid van 100 procent behalen, terwijl Google’s BERT slechts 74 procent haalde. Er is dus nog ruimte voor verbetering.