2min

Tags in dit artikel

, , ,

In een poging om snellere en betere prestaties te leveren bij het doorspitten van teksten dan de meeste methoden tot nu toe, heeft een gecombineerd team van het MIT-IBM Watson AI Lab en de MIT Geometric Data Processing Group een techniek bedacht die een aantal populaire AI-tools combineert.

De onderzoekers zeggen dat hun aanpak miljoenen documenten kan scannen met alleen de historische voorkeuren van een persoon, of de voorkeuren van een groep mensen, als voorkennis.

“Er is een ongelooflijke hoeveelheid tekst op het internet,” zegt Justin Solomon, hoofdauteur van het onderzoek en MIT assistent-professor, over de resultaten. “Alles wat helpt bij het doorploegen van al dat materiaal is erg nuttig.”

Het algoritme van Solomon en zijn collega’s vat verzamelingen van teksten samen in thema’s, op basis van veelgebruikte woorden in de tekstverzameling. Vervolgens verdeelt het algoritme elke tekst in de vijf tot vijftien belangrijkste onderwerpen, met een ranking die het belang van elk onderwerp voor de tekst in het geheel aangeeft. Embeddings, numerieke weergaven van data (in dit geval zijn die data woorden) helpen om de overeenkomsten tussen woorden duidelijk te maken. Ook wordt er optimal transport ingezet, wat helpt om de meest efficiënte manier van verplaatsen van objecten (of in dit geval dus data points) tussen meerdere bestemmingen te berekenen.

Ultrasnel

De embedding maakt het mogelijk om twee keer optimal transport toe te passen. Eerst is het doel om topics binnen de tekstcollectie te vergelijken, en vervolgens om te meten hoe thema’s die op elkaar lijken elkaar daadwerkelijk overlappen. Dit werkt vooral goed bij het scannen van grote collecties boeken en documenten, volgens de onderzoekers. Bij een evaluatie van 1.720 titelparen in de dataset van het Gutenberg Project is het algoritme erin geslaagd om die paren allemaal in één seconde te vergelijken. Dit is volgens de onderzoekers meer dan 800 keer sneller dan de beste methode tot nu toe.