2min

Moderne technieken zijn tot steeds meer in staat als het aankomt op het verwerken van taal. Maar alle natural language processing (NLP) algoritmes delen een gezamenlijk probleem: ze zijn geoptimaliseerd voor een specifieke taak. Dat zorgt ervoor dat ze vaak niet goed werken op andere vlakken.

“Deep learning modellen zijn vaak erg kwetsbaar”, aldus onderzoekswetenschapper Bryan McCann van Salesforce tegenover VentureBeat. McCann stelt dat een model dat goed is in vertalen, vaak minder goed is op het analyseren van emoties of het samenvatten van teksten. Maar Salesforce Research heeft een model ontwikkeld dat hier een oplossing voor heeft.

De werkwijze

De onderzoekers gebruikten een tweeledige aanpak. Ze ontwikkelden een uitdaging – de Natural Language Decatholn (decaNLP) – voor de algoritmes die tien verschillende taken besloeg. En ze ontwikkelden tegelijkertijd een model – het Multitak Question Answering Network (MQAN) – dat die tien taken kon oplossen. Dat deden ze in PyTorch, een open source machine learning bibliotheek die ontwikkeld is voor programmeertaal Python.

“We hebben een algemeen model ontworpen dat veel verschillende verwerkingstaken rond natural language kan verrichten”, aldus McCann. DecaNLP laat MQAN een aantal taaltests uitvoeren, waaronder de beantwoording van enkele vragen. Daarin krijgt het model een vraag en een context, die de informatie bevat die nodig is om tot een antwoord te komen.

Ook waren er taken als machine translation (waarbij het model een document vertaalt), een documentsamenvatting, een emotie-analyse, semantisch rollenspel, een proef waarbij onderlinge banden vastgesteld moesten worden, een doelgeoriënteerde dialoogproef, een query generation test en een werkwoordproef.

Om te bepalen hoe goed het model daadwerkelijk presteerde, normaliseerden de onderzoekers de testresultaten met een score van tussen de 0 en 1000. Zo kwamen ze erachter dat MQAN, dat tegelijk op alle tien de taken getraind werd, net zo goed presteerde als tien modellen die specifiek op een test getraind waren. In sommige domeinen – specifiek machine translation en sentimentanalyse – waren er zelfs betere resultaten.