Wat is RAG (Retrieval-Augmented Generation)?

Insight: Generatieve AI

Wat is RAG (Retrieval-Augmented Generation)?

Nu generatieve AI steeds meer door organisaties wordt ingezet, blijken de tekortkomingen maar al te duidelijk. LLM-training met bedrijfseigen gegevens is kostbaar en tijdrovend, dataprivacy is lastig te waarborgen en outputs zijn meer dan eens feitelijk onjuist of onwenselijk. Retrieval-Augmented Generation (RAG) kan veel van deze problemen oplossen. Wat houdt het in?

Een AI-model opnieuw trainen op data kan weken duren. RAG biedt een uitweg: via deze methode is er nieuwe informatie toe te voegen waaruit een LLM kan putten. We vergeleken het al eerder met kennis die je uit een boek vergaart versus enkel vertrouwen op je eigen geheugen. Dat betekent dat AI-modellen hun bronnen kunnen citeren en actuele informatie tot zich kunnen nemen. RAG haalt relevante documenten aan, waar de uiteindelijke AI-output tevens door verfijnd kan worden. Door middel van voetnoten wordt de informatie uit AI-antwoorden zelfs direct herleidbaar. Daarnaast kunnen organisaties LLM’s door RAG laten specialiseren in bepaalde domeinkennis, iets dat de kans op onjuistheden verkleint.

Tip: GenAI is complex, zeker in enterprise-omgevingen: hoe start je ermee?

In het paper uit 2020 waarin onderzoekers RAG voor het eerst als zodanig omschreven, sprak men over een “voor algemeen gebruik geschikt fine-tuning-recept”. RAG kan bijna elke LLM met nagenoeg welke externe bron dan ook verbinden. Organisaties kunnen daardoor profiteren van de meest geavanceerde modellen terwijl ze hun eigen data kunnen toepassen. Bovendien zou dit alles met vijf regels aan programmeercode te implementeren zijn.

Beter dan fine-tuning

Zelf aan een hoogwaardig AI-model sleutelen kan al via fine-tuning. Ook hiermee kunnen organisaties een LLM voor eigen gebruik geschikt maken. Echter blijven de daadwerkelijke outputs van het aangepaste model nog altijd ondoorzichtig, mede omdat de aanvankelijke trainingsdata doorgaans niet toegankelijk is. Een ander probleem van fine-tuning is dat het extra AI-training vereist, een tijdrovende en prijzige exercitie. Ondanks al deze moeite is de kans op hallucinaties grofweg vergelijkbaar met het aanvankelijke model. RAG is daarentegen snel te implementeren, te herleiden op specifieke databronnen en leidt minder snel tot hallucinaties.

Toepassingen zijn overal te realiseren

Nvidia stelt dat het implementeren van RAG niet alleen eenvoudig, maar ook goedkoop is. Het laat met behulp van Meta’s Llama 2-model zien hoe de workflow er binnen het eigen AI Enterprise-aanbod uitziet. Vector databases spelen hierbij een belangrijke rol, die de daadwerkelijke implementatie van AI al aanzienlijk versnellen door relevante data aan elkaar te koppelen. Deze databases maken het fine-tunen van een AI-model eenvoudiger, hoewel je dit als organisatie dus niet continu wil doen. Een aanpassing door middel van RAG is een stuk sneller: externe documenten kunnen continu worden aangevuld en aangepast, iets dat Nvidia omschrijft als een taak die regelmatig uitgevoerd moet worden.

Lees ook: De wisselwerking tussen vector databases en AI: LLM’s fine-tunen op een hoger niveau

In praktische zin betekent het dat organisaties AI op dynamische wijze kunnen inzetten. Voorbeelden vanuit Nvidia zijn AI-doktersassistenten met toegang tot een actuele medische index, zodat de meest recente adviezen kunnen worden meegenomen. Eveneens zouden financiële analisten AI beter kunnen benutten wegens de inclusie van up-to-date marktdata. De basis dient wel al gelegd te zijn door de keuze voor een vaardig AI-model met hoogwaardige trainingsdata. Nvidia vergelijkt dit model met een rechter, die geholpen wordt door RAG-griffiers die specifieke expertise uit een rechtsbibliotheek halen.

Uitdagingen

Die vergelijking suggereert helaas wel een autoriteit die LLM’s nog niet hebben verdiend. De grootschalige implementatie van GenAI biedt veel kansen, maar daarnaast veel valkuilen. RAG vangt daar een deel van op, maar is zeker niet onfeilbaar. De relevant geachte documenten passen bijvoorbeeld wellicht niet bij de daadwerkelijke intentie van de gebruiker. Ook kan een anderszins gewenste output juist verstoord worden door de aanvullende RAG-informatie. Dat leidt tot een probleem voor ontwikkelaars, omdat er door RAG extra complexiteit wordt toegevoegd. Zo wordt het lastiger om te bepalen waar men aan moet sleutelen om tot betere outputs te komen.

Omdat er nog altijd gebruikgemaakt wordt van externe bronnen, is het bewaken van dataprivacy door RAG niet per se eenvoudiger. Het gebruik van andermans databases levert moeilijk oplosbare privacykwesties op. Verschillende AI-tools vereisen het afstaan van gevoelige gegevens, terwijl on-prem acceleratie veelal simpelweg niet haalbaar is (of niet mogelijk, zoals met GPT-4). Op dit gebied heeft RAG geen oplossing te bieden.

Andere uitdagingen hebben vooral te maken met de razendsnelle ontwikkeling van GenAI over het algemeen. Zo moet RAG continu meegroeien met de sterk toenemende context window die nieuwe AI-modellen mogelijk maken. Gemini 1.5 van Google wordt bijvoorbeeld getest voor een context window van 1 miljoen tokens, gelijk aan een tekst van meer dan 700.000 woorden. Vooralsnog is ook onduidelijk hoe RAG omgaat met de schaal van een AI-model: is de techniek beter geschikt voor de allergrootste modellen of juist kleine? Een andere ontwikkeling rondom AI vindt plaats rondom multimodaliteit: video, afbeeldingen en audio leveren uitdagingen op waar het tekstgebaseerde RAG nog niet de antwoorden op heeft.

Tip: Gemini 1.5 is veel meer dan een nieuw foundation model

Continu verbetering

Hoewel de implementatie van RAG klaarblijkelijk slechts vijf regels programmeercode vereist, is het net als bij andere AI-toepassingen een grote uitdaging om de praktische inzet naar behoren te laten verlopen. De architectuur van RAG vereist expertise om efficiënt, veilig en consistent te opereren. Extra retrieval-stappen leiden tot hogere latency, cruciaal voor een AI-implementatie.

Hoe dan ook laat de evolutie van RAG zien dat er in korte tijd veel mogelijk is. Sinds de introductie van RAG in 2020 passeerden verschillende doorbraken de revue, maar in de afgelopen 12 maanden bevindt de innovatie op dit gebied in een stroomversnelling. Met name de efficiëntie van RAG is inmiddels aanzienlijk verbeterd. Dat gebeurt op allerlei manieren. Voorbeelden hiervan zijn het filteren van irrelevante documenten, stappen om de geschiktheid van documenten te verifiëren en het versnellen van informatievergaring. In oktober leidde het verwijderen van minder relevante tokens zelfs tot een runtime-reductie van 62 procent, terwijl de prestaties nauwelijks afnamen (2 procent). Het laat zien dat RAG nog veel te winnen heeft, maar er volop verbeteringen plaatsvinden.

Dat RAG nuttig is voor organisaties, blijkt uit de grootschalige adoptie. Microsoft biedt via Azure AI Studio de mogelijkheid om RAG te integreren, terwijl er ook voor OpenAI’s ChatGPT en IBM Watsonx.ai implementaties beschikbaar zijn. Frameworks en libraries voor RAG worden al aangeboden door Deepset en Google. Wie dus aan de slag wil met deze techniek, heeft allerlei aanbieders om uit te kiezen. AWS maakt het eveneens mogelijk om foundation models “met slechts een paar clicks” te verbinden zijn met databronnen voor RAG. Kortom, alle grote cloudspelers maken het mogelijk om AI-verfijning via deze methode mogelijk te maken.

Lees ook: Nvidia introduceert Chat with RTX: bouw en draai een chatbot op de pc