2min

CAST AI introduceert AI Optimizer, een service die de kosten van het inzetten van Large Language Models (LLM’s) belooft te verlagen. Deze tool integreert met elk OpenAI-compatibel API-endpoint en kiest automatisch de meest efficiënte LLM, of deze nu commercieel is of open-source.

De geselecteerde LLM wordt ingezet op voor CAST AI geoptimaliseerde Kubernetes-clusters, wat aanzienlijke besparingen moet opleveren. AI Optimizer biedt inzicht in modelgebruik, afstemmingskosten en optimalisatiebeslissingen, wat de keuze voor het juiste model in een gegeven situatie moet vergemakkelijken. CAST AI, gespecialiseerd in het optimaliseren van cloudkosten, kondigde de dienst aan tijdens Google Cloud Next ’24 in Las Vegas.

Druk om vooruitgang in AI bij te houden

Volgens CAST AI zet de groei in het gebruik van LLM’s bedrijven danig onder druk om de vooruitgang in AI bij te benen. Zaken die spelen zijn onder andere de beschikbaarheid van rekenkracht, de enorme diversiteit van de beschikbare modellen en de kosten voor het laten draaien ervan. De oplossing van CAST AI moet deze kosten verlagen en tegelijkertijd voorkomen dat complexe systemen volledig moeten worden herzien bij het bijstellen van eerder gemaakte keuzes.

“Wat AI Optimizer zo aantrekkelijk maakt, is dat het de kosten aanzienlijk verlaagt zonder dat organisaties hun bestaande technologiestacks hoeven te vervangen of zelfs maar een regel applicatiecode hoeven te veranderen, wat zal helpen generatieve AI te democratiseren”, aldus CAST AI-medeoprichter en CTO Leon Kuperman.

Integratie met OpenAI’s API

AI Optimizer integreert met OpenAI’s API en maakt gebruik van statistieken zoals gebruikersspecifieke kosten, algemene gebruikspatronen, tokensaldo en potentiële kostenbesparingen door verfijning van het model. Vervolgens wordt de meest efficiënte LLM met de laagste inferentiekosten geselecteerd.

Het maakt ook slim gebruik van beschikbare GPU-rekenkracht, waaronder Spot-instances (waardoor gebruikers tegen een lagere prijs kunnen bieden op ongebruikte rekencapaciteit) en biedt functies voor budgettering en waarschuwingen.

In combinatie met een efficiënte autoscaler verwacht CAST AI hun klanten aanzienlijke kostenbesparingen te bieden op cloudinfrastructuur als AWS, Azure en GCP. Volgens Kuperman belooft de combinatie van hun LLM-framework en de inzet ervan op geoptimaliseerde Kubernetes-clusters ongeëvenaarde efficiëntie en schaalbaarheid.

De mogelijkheid om optimale LLM’s te identificeren is al beschikbaar, al komt de optie om een LLM automatisch te deployen op voor CAST AI geoptimaliseerde Kubernetes-clusters pas later dit kwartaal.

Lees ook: Kan iedere organisatie generatieve AI-modellen trainen? CAST AI brengt het dichterbij