4min Analytics

Google zinspeelt op volgende grote stap voor LLM’s met Infini-attention

Insight: Generatieve AI

Google zinspeelt op volgende grote stap voor LLM’s met Infini-attention

Google-onderzoekers beweren dat ze LLM’s een eindeloze eetlust voor nieuwe data kunnen geven. In een onderzoekspaper introduceren ze ‘Infini-attention’, een techniek waarmee modellen oneindig lange invoer kunnen verwerken zonder dat ze last krijgen van het AI-equivalent van brandend maagzuur.

Het vermogen om méér informatie te verwerken levert in de hypercompetitieve wereld van AI een voorsprong op de concurrentie op. Ook al zijn er talloze manieren voor bedrijven om hun LLM’s slimmer te maken dan hun rivalen, bijvoorbeeld met bedrijfseigen documenten en gespecialiseerde data, tot nu toe was er altijd een knagend geheugenprobleem. ‘Memory overload’ is nogal eens het fundamentele struikelblok dat een volgende stap in de kwaliteit en nauwkeurigheid van AI-resultaten in de weg staat.

Transformators in Large Language Models (LLM’s), blinken weliswaar uit in het begrijpen en genereren van ‘menselijke’ tekst, maar vertonen ‘kwadratische complexiteit’ wat betreft geheugengebruik en rekentijd. Bij het trainen van AI nemen geheugenvereisten en verwerkingstijd exponentieel toe in plaats van lineair wanneer de grootte van de invoergegevens toeneemt.

Verdubbeling van de invoer = verviervoudiging van de rekentijd

Zoals VentureBeat het stelt, betekent een verdubbeling van de invoer van 1.000 naar 2.000 tokens een verviervoudiging van het benodigde geheugen en de rekentijd. Dit fenomeen zit ingebakken in het self-attention-mechanisme van Transformers, het ooit-revolutionaire onderdeel dat LLM’s in staat stelt om afzonderlijke delen van een invoerreeks te lezen en te wegen tijdens het verwerken ervan.

Dergelijke dependencies over een lange afstand binnen teksten stellen LLM’s in staat om informatie te contextualiseren op een voorheen ongekende schaal. Maar het is precies deze eigenschap die bijdraagt aan de exponentiële toename van de benodigde bronnen.

Het resultaat is dat een typische LLM lijkt op een student die zit te blokken voor een examen. Zijn ‘contextvenster’ is vergelijkbaar met het aantal boeken en artikelen dat hij tegelijkertijd kan doorbladeren. Hij begint peentjes te zweten wanneer zijn limiet wordt overschreden. Gevolg: hij vergeet wat hij als eerste heeft geleerd.

Tip: Google stelt 25 miljoen euro beschikbaar voor AI-trainingen in Europa

Infini-attention is de veronderstelde game-changer, zo suggereert een onderzoekspaper van Google. De betrokken experts hebben een ‘compressive memory’-module toegevoegd aan het klassieke aandachtsmechanisme in LLM’s. Dat zorgt ervoor dat, wanneer de tekst te lang wordt, de oude informatie op een mentale zolder terechtkomt om ruimte te maken voor nieuwe.

Een getal vinden in een hooiberg van tekst

Google zegt dat de gebruikte proef-AI beter presteert dan andere modellen en 114 (!) keer minder geheugen gebruikt. De onderzoekers voerden verschillende tests uit om te zien hoe snel en intelligent hun model was. Eén daarvan bestond uit het begraven van een willekeurig nummer in een hooiberg van tekst tot een miljoen tokens lang, een zogenaamde Passkey Retrieval Task.

Bij een andere taak moest het model teksten van een half miljoen tokens samenvatten. Volgens het onderzoeksrapport werden de tests uitgevoerd op LLM’s met respectievelijk 1 miljard en 8 miljard parameters. Dat is indrukwekkend, maar helaas heeft Google de gebruikte modellen of code niet openbaar gemaakt. Dus wat kunnen we over Infini-attention concluderen zonder een kijkje achter de schermen?

De gerapporteerde bevindingen lijken in elk geval wel wat op de prestaties van Google’s eigen Gemini, bekend om zijn souplesse in het verwerken van teksten van miljoenen tokens – een digitale marathonloper onder de LLM’s. Anthropic’s Claude 3 heeft een capaciteit van 200.000 tokens, terwijl OpenAI’s GPT-4 een contextvenster heeft van 128.000 tokens. Mistral AI heeft een contextvenster van 32.000 tokens.

Als een Sherlock Holmes de ontbrekende puzzelstukjes opsporen

Het paper schetst een mogelijke toekomst waar LLM’s door middel van oneindige context als een soort hyper-zoekmachines werken. Stel je voor: je dumpt al je documenten in de schoot van het model en laat het detective spelen, à la Sherlock Holmes, om de meest relevante puzzelstukjes voor elke zoekopdracht op te sporen. Geen fine-tuning of RAG acrobatiek meer – in plaats daarvan achterover leunen en toekijken hoe de LLM het zware werk doet.

Efficiënt memory-management is cruciaal om LLM’s lange teksten te laten begrijpen en zich te laten aanpassen aan nieuwe informatie. De methode die onderzoekers Munkhdalai, Faruqui en Gopal bij Google hebben verkend, integreert een compressive memory-module in het self-attention-mechanisme van LLM’s, waardoor ze ongelooflijk lange teksten kunnen verwerken zonder dat het geheugen of de rekenkracht wordt overbelast, zo is de stelling.

Infini-attention zou wel eens de volgende stap in AI-training kunnen zijn. Het is echter interessant om te zien of andere bedrijven de resultaten kunnen reproduceren of een vergelijkbare oplossing kunnen vinden voor de enorme technische en geheugeninspanningen die nodig zijn om LLM’s te trainen. Op deze manier is het misschien mogelijk om LLM-trainingsprocessen te optimaliseren, de kosten laag (of in elk geval lager) te houden en de prestaties hoog.

Lees ook: Google Cloud onthult updates voor Gemini, Imagen, Gemma en Vertex AI