Generatieve AI lijkt zeer geschikt om inzichten uit Excel-bestanden te trekken. Large language models (LLM’s) worstelen echter enorm met spreadsheets. De kolommen en rijen in Microsoft Excel of Google Sheets zijn lastig om te zetten naar een AI-prompt. Dat willen Microsoft-onderzoekers veranderen, waardoor er op den duur grote wijzigingen aan het oude vertrouwde Excel te verwachten zijn.
Dat GenAI problemen heeft met spreadsheets, is wellicht niet breed bekend. Immers heeft Microsoft de AI-assistent Copilot al enige tijd geïntegreerd in Excel en biedt ook Google AI-functionaliteit binnen Sheets. Hiermee kunnen gebruikers automatisch grafieken laten maken of hun project starten met een AI-gegenereerde sjabloon. Het is niet wat een ambitieuze organisatie daadwerkelijk zou willen: het omzetten van spreadsheet-data naar nuttige inzichten.
Hoewel organisaties wereldwijd massaal Excel-spreadsheets voor hun bedrijfsvoering inzetten, is het niet de bedoeling dat men massaal deze bestanden aan AI-modellen voedt. Dat heeft deels met datasecurity en -privacy te maken; niemand moet immers loonlijsten of inventarisaties zomaar met ChatGPT delen. Het echte knelpunt zit elders: het omzetten van spreadsheets naar een AI-prompt kost veelal te veel geld door een overmatige token-inzet. Vaak levert het ook een hoeveelheid data op die buiten de context window van een LLM valt. Met andere woorden: grotere rauwe Excel-bestanden voeden aan een LLM is ofwel te duur, ofwel onmogelijk.
SpreadsheetLLM: geen LLM, wel een framework
Een team van Microsoft-onderzoekers presenteerde onlangs SpreadsheetLLM, dat een nieuw framework voorstelt voor het koppelen van LLM’s aan spreadsheets. Zoals gezegd is de uitdaging bovenal om een grote hoeveelheid Excel- of Sheets-data aan een LLM te voeden. Uit het onderzoek bleek een conventionele aanpak met dataserialisatie ongeschikt. Het beperkte aantal tokens gold als struikelblok. GenAI leverde nog meer uitdagingen op voor de onderzoekers, want forsere spreadsheets die het maximale aantal LLM-tokens overschrijdt “verslechteren de nauwkeurigheidsprestaties naarmate de grootte toeneemt.”
De oplossing hiervoor was SheetCompressor, tevens een nieuw framework vanuit het onderzoeksteam. SheetCompressor kent drie modules, die elk de Excel- of Sheets-data verder comprimeren. Allereerst herkent men homogene regels en kolommen, ofwel data die in herhaling valt en weinig inzichten oplevert. Een verdicht “skelet” blijft over, opgemaakt uit de scheidingen tussen tabellen.
Vervolgens maken de onderzoekers gebruik van “lossless inverted-index translation” in een JSON-formaat. Concreet houdt dit in dat identieke data in verschillende cellen gemengd wordt, zonder dat de integriteit van de data verloren gaat. De derde module groepeert data op basis van een overeenkomstige opmaak. Onder de streep is het encoderen van spreadsheets dankzij SheetCompressor 96 (!) procent zuiniger met AI-tokens. Organisaties kunnen met deze methode dus 25 keer goedkoper uit zijn.
Prestaties imposant
Het Microsoft-team experimenteerde met behulp van de closed-source OpenAI-modellen GPT-3.5 en GPT-4 en open-source-opties Llama 2 en Llama 3 van Meta, Phi-3 van Microsoft en Mistral-v2. GPT-4 detecteerde tabellen 27 procent beter dankzij de nieuwe methodologie. TableSense-CNN, dat eerder gold als de beste encoding-methode voor spreadsheets, werd met een verschil van 13 procent verslagen. Vooral grote spreadsheets worden aanzienlijk beter “begrepen” dankzij SpreadsheetLLM en SheetCompressor.
Een volgende stap, genaamd de Chain of Spreadsheet (CoS), verfijnt de werkmethode nog meer. Dit betreft twee stappen: 1) het identificeren van relevante tabellen, zodat de juiste data wordt meegenomen voor een AI-prompt en 2) het genereren van een response, waarbij de gekozen tabelsectie nogmaals aan de LLM wordt gevoed. Dit stappenplan verdeelt het werk op een manier die de beoogde taak behapbaar houdt voor AI-modellen.
Nog niet gereed voor gebruik
De onderzoekers erkennen dat er nog werk aan de winkel is. Zo omvat het huidige framework niet zaken als achtergrondkleuren en randen, simpelweg omdat dat te veel tokens zou vereisen. Ook valt er nog meer context te halen uit de informatie binnen spreadsheet-cellen: “Het categoriseren van termen als “China”, “Amerika” en “Frankrijk” onder één label als “Land” kan bijvoorbeeld niet alleen de compressieratio verhogen, maar ook het semantisch begrip van de gegevens door LLM’s verdiepen.”
Er komt dus niet op korte termijn al een directe integratie binnen Microsoft Excel van SpreadsheetLLM. Toch laten de innovaties zien dat er flink gewerkt wordt aan een zinnige feature-uitbreiding voor Excel. De Microsoft-onderzoekers noemen ook Google Sheets, maar het zal aan de werkgever van het onderzoeksteam zijn om op den duur hun werk aan de man te brengen. Dat zou een grote stap zijn om spreadsheets sneller inzichten te laten geven, iets dat niet alleen tijd scheelt maar ook tot nieuwe datagedreven inzichten leidt.