Ontwikkelaars die AI-assistentie gebruiken, scoorden 17 procent lager bij toetsen dan ontwikkelaars die handmatig coderen. Dat blijkt uit nieuw onderzoek van Anthropic. In het onderzoek werden 52 software-engineers onderzocht die een Python-library leerden. Op basis van hun resultaten konden de onderzoekers vaststellen dat de productiviteitswinst ten koste ging van het leerproces, met name wat betreft debuggingvaardigheden.
In het onderzoek werden de deelnemers in twee groepen verdeeld om de asynchrone library Trio te leren. De ene groep gebruikte AI-assistentie, de andere groep codeerde met de hand. De resultaten waren onder de streep ondubbelzinnig. AI-gebruikers scoorden gemiddeld 50 procent op een daaropvolgende quiz, vergeleken met 67 procent voor handmatige programmeurs.
De beloofde productiviteitswinst kwam ook niet volledig uit. AI-gebruikers voltooiden taken gemiddeld slechts twee minuten sneller, en zelfs dat was niet statistisch significant. Sommige deelnemers besteedden tot wel 11 minuten aan het opstellen van AI-query’s, waardoor de tijdwinst teniet werd gedaan.
Hoe ontwikkelaars AI gebruiken, is belangrijk
Het onderzoek kon zes verschillende patronen van AI-gebruik onderscheiden. Drie daarvan leidden tot scores van minder dan 40 procent, waarbij AI naar alle waarschijnlijkheid een nadelige factor was voor de resultaten. Die patronen draaiden om volledige AI-delegatie, progressieve afhankelijkheid van AI (1 door mensen geleide taak, daarna 1 door AI geleid) en iteratieve AI-debugging. Deelnemers die volledig op AI vertrouwden, voltooiden taken het snelst, maar leerden het minst.
Drie patronen zorgden verder voor behoud van het leerproces, met scores van 65-86 procent. Hierbij werden alleen conceptuele vragen aan AI gesteld, werd om uitleg gevraagd naast het genereren van code, of werd AI gebruikt om code te genereren, maar stelden de programmeurs vervolgens vervolgvragen om te snappen wat er precies gecodeerd werd. Met andere woorden: degenen die AI-hulp gebruikten zonder er in grote mate op te vertrouwen, leken hun leervaardigheden te behouden.
Het verschil was het meest uitgesproken bij debugging-vragen. De groep die handmatig codeerde, kwam tijdens de taken meer fouten tegen, maar loste deze zelfstandig op, waardoor hun debugging-vaardigheden werden versterkt. AI-gebruikers kwamen minder fouten tegen, maar presteerden slechter wanneer ze gevraagd werden om codeproblemen te identificeren en te diagnosticeren.
Implicaties voor de werkplek
Onderzoekers van Anthropics waarschuwen dat junior developers mogelijk op AI vertrouwen om taken snel uit te voeren, ten koste van de ontwikkeling van vaardigheden, met name debuggingvaardigheden die nodig zijn om door AI gegenereerde code te valideren. Het probleem wordt zo een vicieuze cirkel, omdat de verloren vaardigheden van deze ontwikkelaars uiteindelijk externe hulp vereisen om het gat op te vullen, wat resulteert in een nog grotere afhankelijkheid van AI die door minder mensen kan worden gecorrigeerd. Bedrijven gebruiken nu eenmaal steeds meer AI-geschreven code in hun codebases. Het is lastig te zeggen hoeveel correcties nu wel doorgevoerd worden bij die code en later niet, zodra een nieuwe AI-gedreven generatie deze taak oppikt.
De studie testte alleen het onmiddellijke begrip na een uur leren. We vinden het niet heel logisch om dat te vertalen naar de gevolgen van langdurig AI-gebruik. Om de impact van de technologie volledig te begrijpen, zou je eigenlijk A/B-tests moeten uitvoeren op hele groepen ontwikkelaars terwijl ze het vak leren. Dat zou een bruikbare les opleveren over de afhankelijkheid van AI, in tegenstelling tot de louter intrigerende resultaten van het huidige onderzoek. Ze geven een indicatie van wat wel en absoluut niet werkt als je AI-hulp voor ad hoc taken inschakelt en hoeveel je ervan opsteekt, maar niet van hoe je denkproces op termijn verbetert of verslechtert bij bepaald AI-gebruik of -onthouding.
In ieder geval moeten managers nadenken over hoe ze AI-tools kunnen inzetten en tegelijkertijd ervoor zorgen dat engineers blijven leren, suggereren de onderzoekers. Cognitieve vaardigheden kunnen alleen gelijke tred houden met AI als mensen nog steeds bereid zijn om zelf na te denken, zo blijkt.
Anthropic verklaart publiekelijk dat het belang hecht aan AI-‘alignment’, veiligheid en het behoud van menselijke vaardigheden samen met AI-gebruik. Het feit is echter dat Claude kan worden gebruikt op manieren die het bedrijf al als schadelijk zou beschouwen, met weinig mogelijkheden aan de kant van het bedrijf om dit te beperken, aangezien het gebruik van API’s gemakkelijk kan worden verborgen. De technologie, die met ChatGPT aan de man is gekomen, kan niet worden ingeperkt op de manieren die Anthropic in zijn veiligheidsgerichte retoriek suggereert. Hoe dan ook, onderzoek naar dit onderwerp blijft van groot belang, zodat gebruikers kunnen bepalen in hoeverre ze hierop kunnen vertrouwen binnen hun organisatie of voor zichzelf.
Lees ook: Anthropic’s Claude gehackt: LLM wordt malware-fabriek in acht uur