3min

Tags in dit artikel

, , ,

Vector databases winnen opnieuw aan belang door de ontwikkelingen in generatieve AI. Daar bewijzen ze zich voornamelijk nuttig voor bedrijven die de modellen achter AI-tools willen aanpassen naar de eigen behoeften. Tijdswinst is de voornaamste reden om aanpassingen aan large language modellen via vector databases te laten verlopen.

Vector databases blijken ook bij het trainen van large language modellen (LLM’S) veel voordelen te bieden. Dat merken we uit de recente aankondiging van Salesforce, die vector database-ondersteuning recent beschikbaar maakte. Daarmee belooft het aan ontwikkelaars een eenvoudigere koppeling van bedrijfsdata aan LLM’s. Fine-tuning wordt zo overbodig en dat neemt een tijdsintensieve taak van ontwikkelaars weg.

Context voor modellen

Wat zijn vector databases nu eigenlijk? Vectoren komen je waarschijnlijk wel bekend voor uit de wiskunde. Computermodellen zijn dol op dergelijke wiskundige representaties. Voor de modellen is het klare taal op basis waarvan te bepalen gelijkenissen te maken zijn. Door de omzetting van de werkelijkheid naar een technisch verantwoord beeld, ziet het model pas de gelijkenissen tussen bijvoorbeeld twee foto’s. Naast de gelijkenissen zullen de modellen ook relaties en context begrijpen.

Het voordeel van deze methode is dat de wiskundige omzetting kan gebeuren voor zowel gestructureerde als niet-gestructureerde data. Iedere vector uit de database kan gelinkt zijn aan een verschillend type data. Het kan bijvoorbeeld een afbeelding, woord of document zijn. Ieder type bevat verschillende kenmerken.

Voor een woord maakt de vector bijvoorbeeld verschillende datapunten voor het aantal letters waaruit het woord bestaat, uit welke letters het woord bestaat en hoeveel medeklinkers het woord bevat. Woorden die deze kenmerken overeenkomen, zou de vector database vervolgens dichtbij elkaar moeten plaatsen.

Afhankelijk van aanbieders

LLM’s en de neurale netwerken waaruit deze modellen bestaan, bevatten de eigenschap dat ze zichzelf verder kunnen ontwikkelen. Ingevoerde data vormt het netwerk in andere woorden zelf om tot een vector nadat het getraind en geperfectioneerd is.

Zelf een dergelijk neuraal netwerk trainen, vraagt om meer data dan je bedrijf misschien voor handen heeft. Bovendien vraagt de creatie van een eigen neuraal netwerk om training en dus om tijd. Salesforce maakt nu een eigen aanbod beschikbaar dat van voldoende training is voorzien om relevante vectoren te creëren. Dat maakt dat verschillende CRM-oplossingen van de specialist beter worden afgestemd op de behoeften van de specifieke zakelijke gebruiker van de oplossingen.

MongoDB speelt dan weer in op het veld van vector databases met MongoDB Atlas Vector Search. Met de dienst creëren ontwikkelaars snel eigen AI-applicaties die zijn afgestemd op de behoeften van de onderneming door de integratie van de operationele database. “Met Atlas Vector Search is data automatisch gesynchroniseerd tussen de database waar data is opgeslagen en de vector database die ernaast leeft”, verduidelijkt Benjamin Flast, productmanager bij MongoDB. Dat levert een AI-applicatie op die snel gelijkaardige zaken in de operationele database kan aanduiden.

De grote cloudspelers

Waar ontwikkelaars waarschijnlijk nog sneller mee in contact komen, zijn de grote cloudspelers. Bij deze spelers nemen we een algemene trend waar waarbij vector databases voornamelijk als extensie bestaan van een dienst die het cloudplatform aanbiedt. Een losstaande vector database is er niet. Dat neemt niet weg dat ontwikkelaars ook met de extensies al een vertrekpunt hebben om eenvoudig met het principe van vector databases aan de slag te gaan.

Een terugkerende extensie bij AWS, Microsoft Azure en Google Cloud is de pgvector-extensie. Het gaat om een PostgreSQL Server-extensie die functionaliteiten aanbiedt om overeenkomstige vectoren te zoeken. Deze extensie is voornamelijk belangrijk met het oog op het koppelen van LLM’s.

Betere verbanden door AI

Generatieve AI-tools zijn voor zakelijke gebruikers doorgaans te verfijnen. Dat maakt de tool immers relevanter voor de bedrijven die output in een bepaalde huisstijl maken en waar chatbots bedrijfsspecifieke vragen van klanten moeten beantwoorden. Een vector database haalt dus de nood weg om het model te fine-tunen voor deze behoeften.

De vector databases profiteren op hun beurt dan weer van de ontwikkelde large language modellen. Deze modellen zijn namelijk beter in staat om de verbanden tussen vectoren te leggen. “Met de recente vooruitgang op het gebied van de kunstmatige intelligentie zijn deze vectoren nu beter in staat de betekenis van gegevens vast te leggen door lagerdimensionale gegevens te projecteren in een hoger dimensionale ruimte die meer context over de gegevens bevat”, weet Flast.

De mogelijkheden van vector databases zijn dus breder geworden door de ontwikkelingen in AI. Tegelijk winnen de databases weer aan belang door de behoefte van zakelijke gebruikers om de modellen achter AI-tools te fine-tunen. Vector databases maken de koppeling van bedrijfsdata aan LLM’s namelijk eenvoudiger en minder tijdsintensief.