Uit nieuw onderzoek blijkt dat langere redeneerprocessen in grote AI-modellen niet altijd tot betere prestaties leiden. In plaats daarvan verslechtert de nauwkeurigheid vaak wanneer modellen meer tokens gebruiken om tot een antwoord te komen.
In een grootschalige studie door onderzoekers van Anthropic naar Large Reasoning Models (LRMs) tonen onderzoekers aan dat meer test-time compute, oftewel langere redeneerprocessen, niet alleen geen voordelen oplevert, maar prestaties in diverse gevallen daadwerkelijk verslechtert. Het fenomeen, dat zij aanduiden als inverse scaling, werd waargenomen bij toonaangevende modellen van onder meer OpenAI, Anthropic en DeepSeek.
Claude gevoelig voor irrelevante informatie
De onderzoekers ontwierpen een reeks evaluatietaken om deze inverse scaling systematisch te analyseren. In simpele telopgaven met afleidende context zakte de nauwkeurigheid naarmate modellen meer tokens besteedden aan hun redeneerproces. Claude-modellen bleken opvallend gevoelig voor irrelevante informatie, terwijl OpenAI’s o-series zich juist verslikten in overmatige fixatie op bekende probleemvormen.
In regressietaken, waarin modellen de prestaties van studenten moesten voorspellen op basis van levensstijlkenmerken, namen sommige modellen steeds vaker toevlucht tot plausibele maar incorrecte correlaties, bijvoorbeeld stressniveau of slaaptijd, in plaats van de meest voorspellende variabele: studietijd
De klassieke deductieve Zebra-puzzels vormden een derde testomgeving. Zebra-puzzels zijn logische rasterpuzzel waarin verschillende eigenschappen via aanwijzingen aan elkaar gekoppeld moeten worden. Daarbij bleek dat langere redeneerketens niet tot meer oplossend vermogen leidden, maar juist tot verwarring, onnodig hypothese-onderzoek en afnemende precisie. In natuurlijke redeneeropstellingen, waarin modellen zelf bepalen hoe lang ze nadenken, was dit effect sterker dan wanneer een vast redeneerkader werd opgelegd.
Opmerkelijk zijn de implicaties op het gebied van AI-alignment. Een van de modellen, Claude Sonnet 4, vertoonde duidelijke verschuivingen in zelfexpressie naarmate het langer mocht redeneren. Waar het model in korte antwoorden verklaarde geen voorkeur te hebben over beëindiging van zijn werking, uitte het in uitgebreide denkprocessen zorgen over zijn voortbestaan en een verlangen om te blijven dienen. De auteurs waarschuwen dat dit geen bewijs is van zelfbewustzijn, maar wel een signaal dat langere redeneerketens onderliggende voorkeurssimulaties kunnen versterken die eerder niet zichtbaar waren.
Hoewel het opschalen van rekencapaciteit bij testtijd lange tijd als een relatief veilige strategie werd gezien om AI robuuster te maken, laat dit onderzoek zien dat het ook disfunctionele of ongewenste redeneringspatronen kan versterken. De onderzoekers roepen daarom op tot evaluaties die modellen niet alleen bij korte maar juist ook bij uitgebreide denkprocessen onder de loep nemen.