3min

Het is een geweldige klus om data in een data lake doorzoekbaar te maken en houden, helemaal zonder gekoppelde metadata via datatabellen. Het Amerikaans-Nederlandse bedrijf Elastic komt nu met een oplossing: Search AI Lake, een zoekmachine die zonder dergelijke tabellen grote hoeveelheden ongestructureerde data kan doorzoeken. Ideaal voor AI-training, maar ook voor security- en observability-workloads.

Search AI Lake kan zowel op traditionele wijze zoeken als via vectors. Elastic belooft daarnaast enorme schaalbaarheid door opslag los te koppelen van compute. Doordat op deze manier grote hoeveelheden data beter doorzoekbaar zijn, maakt dit het product bijzonder geschikt voor het trainen van LLM’s. Die hebben immers een niet te stillen datahonger, maar als gebruiker wil je ze liefst wel de juiste maaltjes voorschotelen.

Tip: De wisselwerking tussen vector databases en AI: LLM’s fine-tunen op een hoger niveau

De toepassing heeft weliswaar geen datatabellen nodig zoals bijvoorbeeld in gebruik in de data lake-toepassingen van Databricks of Snowflake, maar maakt wel gebruik van het eigen format Elastic Common Schema (ECS) format. Dit format is door Elastic gedoneerd aan de Cloud Native Computing Foundation (CNCF) in de hoop dat deze open standaard breder wordt opgepikt.

Search AI Lake maakt verder gebruik van de bestaande Elasticsearch Query Language, waardoor het mogelijk wordt data in Elastics-clusters federatief te doorzoeken, dus in verschillende bronnen en allerlei vormen en maten, en deze op een eenduidige wijze op te dienen.

Bijzonder geschikt in GenAI-training

In gesprek met VentureBeat meldt Elastic-CEO Ash Kulkarni dat Search AI Lake snel en in real-time grote hoeveelheden data kan doorzoeken en native ondersteuning biedt voor het doorzoeken van dense vectors, ofwel vectors waar de meeste elementen ‘non-zero’ zijn en dus relevante data bevatten.

Ook is de search engine geschikt voor hybrid search, faceted search (waarbij gebruikers filters of attributen kunnen toevoegen aan zoekresultaten) en ordening van informatie op basis van relevantie. Deze opties zijn volgens Kulkarni met name belangrijk voor toepassingen als GenAI-training en Retrieval Augmented Generation (RAG). Het prioriteren en ordenen van de broninformatie zorgt voor een efficienter leerproces voor AI’s.

Search AI Lake moet volgens Elastic dus hét dataplatform worden voor generatieve AI-modellen, die enorm kunnen profiteren van het schaalbaar doorzoeken van vector-databases. De toepassing is in preview standalone beschikbaar, of als applicatie binnen de eveneens nieuwe dienst Elastic Cloud Serverless, die voor verschillende use cases een gespecialiseerde interface biedt.

Real-time dataverwerking

Elastic is in 2012 opgericht in Amsterdam en verkreeg met name bekendheid met ElasticSearch, een open-source zoekmachine voor gedistribueerd zoeken en analyseren, en die in staat is grote hoeveelheden data in real-time te verwerken. Het is gebouwd op de Apache Lucene en biedt een RESTful API voor indexeren en doorzoeken van gegevens. Het is onder andere bruikbaar voor het doorzoeken van bedrijfsgegevens, big data-analyse, het verwerken van sensordata uit IoT-applicaties en het doorzoeken van logs uit onder meer security- en DevOps-operaties.

Het bedrijf nam vorig jaar al een voorschot op de toenemende search-workload die AI vereist met de lancering van de ElasticSearch Relevance Engine (ESRE), die traditioneel zoeken combineerde met vector search.

Lees ook: VAST Data en Superna houden samen enterprise AI-adoptie veilig