1 min

Databricks heeft onlangs een preview uitgebracht van GPU- en LLM-optimalisatie voor Model Serving. Hierdoor wordt het uitrollen van grote AI-modellen op het Lakehouse Platform makkelijker.

De in preview getoonde GPU- en LLM-optimalisatiefunctionaliteit voor Model Serving biedt automatische optimalisatie voor zogenoemd LLM Serving en het afleveren van hoge prestaties hiervoor zonder menselijke configuratiehandelingen.

De functionaliteit is volgens Databricks de eerste serverless GPU die op een unified data- en AI-platform is gebouwd. Dit moet eindgebruikers in staat stellen vooral generatieve AI-oplossingen naadloos binnen een enkel platform te ontwikkelen, vanaf data-ingestie tot aan de uitrol van modellen en de monitoring ervan.

Met de functionaliteit kunnen gebruikers een veelvoud aan AI-modellen uitrollen. Denk daarbij aan natural language-modellen, computer vision-modellen, audio-modellen of tabel- of aangepaste modellen.

Hierbij maakt het volgens Databricks niet uit hoe ze zijn getraind en met welke soort gegevens.

Minder latency en kosten

Via Model Serving uitgerolde LLM-modellen zouden tot 3,5 keer minder latency hebben en eveneens minder kosten. Ook wordt tot 2,5 keer meer throughput bereikt.

In de preview optimaliseert Databricks Model Serving met de GPU- en LLM-optimalisatie nu automatisch MPT- en Llama 2-modellen. In de nabije toekomst worden hier de andere mogelijke modellen aan toegevoegd.

Lees meer: Databricks haalt in recente investeringsronde half miljard dollar op