2min

Tags in dit artikel

, , ,

De technologie van de startup Lilac helpt data scientists bij het begrijpen en aanpassen van tekstdatasets.

Voor Databricks is de open-source tool van Lilac interessant om large language model (LLM)-gebaseerde systemen verder te ondersteunen. Lilac kan gebruikt worden voor het evalueren van de output van LLM’s en het voorbereiden van ongestructureerde datasets voor modeltraining. Volgens Databricks is het analyseren van ongestructureerde tekstdata nu echter te omslachtig en uiterst lastig. “Historisch gezien werd dit proces ontsierd door handmatige, arbeidsintensieve methoden zonder schaalbaarheid. Deze traditionele methoden zijn niet alleen tijdrovend, maar ook zo intimiderend dat ze velen ervan weerhouden ze te proberen”, aldus Databricks.

Met de technologie van Lilac wordt dit proces gestroomlijnd. Hiervoor vertrouwt de tool op clustering, waarbij het met een AI-model documenten analyseert. Vervolgens worden vergelijkbare documenten in groepen gecategoriseerd, om een beschrijving voor iedere groep te genereren. Het kan bijvoorbeeld classificeren dat driekwart van de trainingsdata afkomstig is van papers, terwijl de overige 25 procent een ander type data is.

Een screenshot van een software-interface voor gegevensanalyse met verschillende statistieken en filters met betrekking tot productrecensies, filmrecensies, sporttrivia en meer.

Voor data scientists is dit nuttig om te bepalen of bepaalde datasets gebruikt moeten worden voor een een model. Uiteindelijk verbetert dit de output van het model en vermindert de tijd voor het trainen van het model.

Combinatie Databricks en Lilac

Databricks wil Lilac verder integreren in zijn MosaicML-technologie. MosaicML werd medio 2023 overgenomen en is verder ontwikkeld tot een Data Intelligence Engine. Deze engine draait bovenop het lakehouse, om kolommen automatisch te indexeren en data-partitionering te versterken. “De technologie van Lilac zal het gemakkelijker maken om de resultaten van LLM’s op een uniform platform te evalueren en te monitoren, en datasets voor te bereiden voor RAG, verfijning en pre-training”, concludeert Databricks.

Het is niet bekend hoeveel Databricks betaalt voor de overname van Lilac.

Tip: Databricks gaat van lakehouse naar data intelligence