IBM test manieren om natural language processing te verbeteren

Onderzoekers van IBM beschrijven in vier verschillende papers manieren om natural language processing te verbeteren. Het gaat om nieuwe semantic parsing-technieken, een methode om onvolledige kennisbanken te integreren met corpora en een tool die vakdeskundigen rekruteert om interpreteerbare, op regels gebaseerde systemen te verfijnen.

Salim Roukos, senior manager bij IBM Reserach, stelt dat natural language processing-systemen van grootzakelijke bedrijven vaak uitdagingen tegenkomen vanwege meerdere factoren. Het gaat bijvoorbeeld om het gebruik van heterogene silos aan informatie, incomplete data en het trainen van accurate modellen met kleine hoeveelheden data, schrijft Venturebeat.

“We verkennen meerdere thema’s om deze uitdagingen het hoofd te bieden en natural language processing voor enterprise-doeleinden te verbeteren.”

AMR

Het eerste onderzoek draaide om een abstract meaning representation (AMR). Dat is een datastructuur waarmee vergelijkbare zinnen dezelfde representatie kunnen krijgen.

Bij het onderzoek gebruikten de wetenschappers reinforcement learning, wat een trainingstechniek voor kunstmatige intelligentie (AI) is dat beloningen gebruikt om softwarebeleid naar bepaalde doelen te begeleiden.

Daarmee wisten de auteurs van de studie de semantische accuraatheid van een doelgrafiek naar 75,5 procent te brengen. Eerder was dat maximaal 74,4 procent.

Meerdere kennisbanken

Een ander team van IBM schreef in een paper over een aanpak voor queries, waarbij semantic parsing verenigd wordt over meerdere kennisbanken. De techniek gebruikt de structurele gelijkenis tussen query-programma’s om door verschillende kennisbanken te zoeken.

Dat werk sluit aan bij dat van weer een ander team. Daarin bestudeerden IBM-wetenschappers onvolledige kennisbanken en hoe deze samengevoegd kunnen worden met een corpus van een tekst.

Dat is een aanpak die volgens hen tot betere antwoorden kan leiden op vragen die niet volledig in hun kennisbanken of individuele documenten behandeld werden.

HEIDL

In de laatste paper beschrijven de onderzoekers een tool genaamd Human-in-the-loop linguistic Expressions with Deep Learning (HEIDL). Deze tool sorteert door machine gegenereerde expressies op precisie en terugroepacties.

In één van de experimenten annoteerde advocaten van IBM in 20.000 zinnen van bijna 150 contracten zinnen gerelateerd aan belangrijke clausules, zoals beëindiging, communicatie en betalingen. HEIDL analyseerde die vervolgens om inzichten van hoog niveau te leveren.

Een team van data scientists gebruikten dit om gemiddeld zeven regels te identificeren die de contracten automatisch een label gaven in ongeveer een half uur tijd. Volgens de wetenschappers had het een week of meer gekost om dit met de hand te doen.