AI-modellen die fungeren als programmeerhulp hallucineren er nog steeds op los. Commerciële modellen verzinnen in 5,2 procent van de gevallen gedeeltelijk de inhoud van code packages, voor open-source modellen betreft dat maar liefst 21,7 procent. Dat blijkt uit onderzoek van drie Amerikaanse universiteiten.
De wetenschappers, afkomstig van de University of Texas, University of Oklahoma en Virginia Tech onderzochten 16 LLM’s die veel worden gebruikt voor het genereren van code. Ze genereerden 576.000 stukken code in JavaScript and Python, waarvoor ze gebruik maakten van respectievelijk de npm en PyPI package repositories.
Ze voerden dertig tests uit die resulteerden in 2,23 miljoen pakketten. Bijna twintig procent daarvan, 440.445 pakketten, betroffen hallucinaties. Behalve de hallucinaties in de code zelf bleken ook de namen van packages in 205.474 unieke gevallen verzonnen. Dat wil zeggen dat ze helemaal niet bestaan in de gebruikte repositories.
Minder slechte cijfers dan vorig onderzoek
Lichtpuntje is dat volgens dit onderzoek in elk geval minder wordt gehallucineerd dan gemeten in een eerder onderzoek door Lasso Securities. In het geval van GPT-4 is dat 5,76 procent versus 24,2 procent. Voor GPT-3.5 betreft het verschil 4,05 procent tegen 22,22 procent. (In het paper staan de cijfers van Lasso overigens verkeerd om, op deze pagina staat het correct).
Om het hallucineren te mitigeren, hebben de onderzoekers Retrieval Augmented Generation (RAG) toegepast via de DeepSeek Coder 6.7B en CodeLlama 7B-modellen om met een lijst met geldige package-namen te komen. Dat hielp om de respons te verbeteren, maar zorgde helaas voor een mindere kwaliteit van de code in het algemeen: 26,1 procent minder kwaliteit bij gebruik van DeepSeek en 3,1 procent minder bij CodeLlama.
“Hallucinaties zijn resultaten van LLM’s die feitelijk onjuist, onzinnig of volledig ongerelateerd aan de invoertaak zijn”, brengen de onderzoekers nog eens in herinnering. Volgens hen vormen dergelijke hallucinaties een ‘kritiek obstakel’ voor de effectieve en veilige inzet van LLM’s vanwege de onnauwkeurige of misleidende informatie die dit oplevert.
Code per abuis als kloppend beoordeeld
Ook een ander onderzoek naar code-hallucinaties door AI-modellen toont dat ze lang niet altijd betrouwbare resultaten opleveren. In het betreffende onderzoek vanuit de Technische Universiteit van Valencia (Spanje) bleek dat in elk geval GPT van OpenAI, LLaMA van Meta en het open-source BLOOM-model van BigScience’s méér hallucineren naarmate ze meer parameters hebben.
Kort door de bocht zou je dus kunnen zeggen: hoe groter, hoe onbetrouwbaarder. Vooral GPT bleek in dit ondezoek onbetrouwbaarder en fantaseerde er lustig op los om het de menselijke prompt-invoerder naar de zin te maken. Uit hetzelfde onderzoek bleek ook dat menselijke beoordelaars van de code deze in 10 tot 40 procent van de gevallen ten onrechte als kloppend aanmerkten.
Lees ook: DeepSeek Coder V2: Chinees open-source-model daagt Amerika uit