Microsoft maakt belangrijk algoritme achter zoekmachine Bing open source

Microsoft heeft één van de algoritmes uit de kern van zijn zoekmachine Bing open source gemaakt. Op die manier hoopt het bedrijf ontwikkelaars te helpen om snellere en eenvoudiger te navigeren applicaties te maken. 

Het gaat om het algoritme Space Partition Tree And Graph (SPTAG), die nu beschikbaar is onder de MIT License. Het algoritme is gebundeld in een library die ook tools bevat om ontwikkelaars te helpen om de code in hun projecten te stoppen, schrijft Silicon Angle.

SPTAG

SPTAG is het algoritme waarmee Bing direct relevante zoekresultaten kan tonen, zelfs als een gebruiker een opdracht intypt die niet verwerkt kan worden door simpelweg keywords te matchen met webpagina’s. Vul je bijvoorbeeld de zin “grootste meer in de Verenigde Staten” in, dan komt er een paneel omhoog met informatie over Lake Superior. Dat terwijl er maar één woord gedeeld wordt tussen de twee.

SPTAG maakt dit allemaal mogelijk door zoekopdrachten om te zetten in dataconstructies genaamd vectors. Een vector is in principe een lange reeks nummers die verschillende soorten informatie kan bevatten. Dat kunnen individuele woorden zijn, maar ook complete webpagina’s.

Het vertalen van verschillende records naar een algemeen nummer-format heeft als voordeel dat ze eenvoudiger vergeleken kunnen worden. De zin “grootste meer in de Verenigde Staten” zal daarbij overeenkomsten hebben met de vector die Bing genereert uit de tekst van de Wikipedia-pagina “Lijst van grootste meren in de Verenigde Staten per gebied”. Op die Wikipedia-pagina staat Lake Superior bovenaan de lijst.

Zoekopdrachten versnellen

Bing groepeert de vectors die web-content representeren op basis van overeenkomsten, om zoekopdrachten te versnellen. Volgens Microsoft stelt SPTAG Bing in staat om door miljoenen stukken data te zoeken in een paar milliseconden tijd. De zoekmachine heeft toegang tot een repository van ruim 150 miljard vectors, die constant uitgebreid wordt met nieuwe content van het internet.

SPTAG is via GitHub beschikbaar.