2min

Databricks heeft onlangs zijn eigen generatieve AI-tool Dolly open-source gemaakt. De generatieve AI-tool beschikt over min of meer dezelfde ‘magische’ eigenschappen als het bekende ChatGPT van OpenAI. Dit ondanks het gebruik van een veel kleinere dataset voor het trainen van de tool.

De opkomst van generatieve AI-tooling -en in het bijzonder ChatGPT van OpenAI- leidt tot een ware ontwikkelingsrace. Microsoft kwam met Bing AI en CoPilot, en Google introduceerde met Bard een eigen generatieve AI-tool, maar ook Meta maakte recent zijn LLaMA (LLama)-model open-source. Op basis van dit model creëerden onderzoekers van Stanford University een ChatGPT-achtige tool met de naam Alpaca.

Luister ook: Is GPT-4 opnieuw baanbrekend of heeft de hype zijn hoogtepunt bereikt?

Introductie Dolly

Ook big data en Lakehouse-specialist Databricks doet nu een duit in het zakje en heeft onlangs zijn generatieve AI-tool Dolly open-source gemaakt. Dolly is gebouwd op basis van het openbaar beschikbare large language model (LLM) GPT-J van EleutherAI. Het GPT-J-model is door de ontwikkelaars van Dolly aangepast met nieuwe instructievolgmogelijkheden als brainstorming en tekstgeneratie. Deze mogelijkheden waren in GPT-J nog niet aanwezig. De voor de training gebruikte data is weer afkomstig uit de hierboven genoemde Alpaca-tool.

Minder parameters dan andere LLM’s

Het LLM-model achter Dolly is met 6 miljard parameters kleiner dan het LLM met 175 miljard parameters van ChatGPT. Toch zijn de onderzoekers van Databricks met dit kleinere datamodel erin geslaagd in slechts 3 uur met een enkele machine een kleine dataset van 50.000 woorden te trainen. Wanneer deze dataset wordt bevraagd, geeft het min of meer dezelfde menselijke interactie als de bekende generatieve AI-tool van OpenAI.

Volgens Databricks bewijst de kracht van Dolly dat voor generatieve AI de ‘magie’ van instructies niet komt door specifieke trainingsmodellen op basis van gigantische datasets en grote hoeveelheden hardware, maar door de juiste technologie hoe met mensen moet worden gepraat. Het creëren van deze ‘menselijke’ interactie kan iedereen volgens Databricks op basis van deze kleinere dataset van Q&A-voorbeelden.

Dit moet de ontwikkeling van generatieve AI-tools als Dolly of ChatGPT verder ‘democratiseren’ en dus voor meer mensen mogelijk maken, zonder daarvoor flink te moeten investeren.

Goedkope kloon van andere LLM-modellen

Het nu ontwikkelde model Dolly heeft deze naam meegekregen vanwege het bekende eerste gekloonde schaap Dolly. Dit omdat de Dolly-tool in de ogen van de ontwikkelaars eigenlijk een goedkope Alpaca en GPT-J-kloon is.

Databricks geeft verder aan dat de introductie van Dolly de eerste is van een reeks oplossingen op basis van LLM die het de komende tijd wil introduceren.

Lees ook: OpenAI introduceert plugin-functionaliteit voor ChatGPT