Claude Opus 4.5 is het beste model voor codeertaken en agentic AI. Althans, dat beweert Anthropic. Het nieuwe model is “een stap vooruit in wat AI-systemen kunnen doen” en zou zelfs een tipje van de sluier lichten als het om de toekomst van werken gaat. Hoe zit dat?
Claude Opus 4.5 is de grote broer van het eerder gelanceerde Sonnet 4.5, dat al op verschillende manieren het beste model was toen het eind september verscheen. Inmiddels is Google Gemini 3 Pro uitgebracht en heeft OpenAI haar GPT-5 verfijnd tot GPT-5.1, dus de concurrentie blijft in beweging. Ondanks dat Gemini 3 Pro en GPT-5.1-Codex-Max slechts om en nabij de codeerprestaties van Sonnet 4.5 kwamen, achtte Anthropic het noodzakelijk om Opus 4.5 een aanzienlijk betere software engineer te maken.
In een ietwat misleidende staafdiagram (de staven beginnen bij 70 procent en de meetlat stopt bij 82 procent) is Opus 4.5 duidelijk een stap vooruit ten opzichte van de competitie. Met de breed omarmde SWE-bench Verified-test scoorde Opus 4.5 een 80,9 procent, betekenisvol beter dan Sonnet 4.5 (77,2 procent), Codex-Max (77,9 procent) en Gemini 3 Pro (76,2 procent).
Recordscore op codeerbenchmarks
Het nieuwe model is per direct beschikbaar in alle Claude-apps, via de API en op alle drie de belangrijkste cloudplatformen: Azure, GCP en AWS. Anthropic verlaagt tegelijkertijd de prijzen voor de Claude API. Het nieuwe AI-model kost 5 dollar per miljoen input tokens en 25 dollar per miljoen output tokens. Hiermee worden Opus-modellen een reëlere optie dan voorheen, aangezien Anthropic regelmatig aan de dure kant zat qua beprijzing.
Efficiënter dan voorgangers
Naast betere prestaties heeft Anthropic het model ook efficiënter gemaakt. Claude Opus 4.5 gebruikt aanzienlijk minder tokens dan zijn voorgangers, waaronder Opus 4.1, om dezelfde of zelfs betere resultaten te bereiken. Het model doet minder aan backtracking, redundante verkenning en verbaal redeneren.
Een voorbeeld: Opus 4.5 op Medium reasoning effort verslaat de eerder genoemde SWE-bench Verified-scores van Sonnet 4.5 met 76 procent minder output tokens. Bij High reasoning effort presteert Opus 4.5 4,3 procent beter dan Sonnet 4.5, terwijl het 48 procent minder tokens gebruikt.
Meer controle voor ontwikkelaars
Anthropics volgt OpenAI’s voorbeeld door een reasoning effort parameter toe te voegen aan de Claude API. Hiermee kunnen ontwikkelaars zelf bepalen waar de balans ligt tussen snelheid en denkvermogen. Het lijkt erop dat dit de aandacht trekt van AI-specialisten vandaag de dag, waar eerder bijvoorbeeld de trainingsdata, trainingsmethode en het verdelen van informatie onder ‘experts’ binnen een LLM de meeste uitleg kregen bij de aankondiging van nieuwe modellen.
Met Opus 4.5 kan Claude Code nu nauwkeuriger plannen maken en grondiger uitvoeren. Ook kan het vooraf verduidelijkende vragen stellen en vervolgens een bewerkbaar plan.md-bestand aanmaken voordat het aan de slag gaat. Deze aanpak moet leiden tot betere resultaten bij complexe coderingstaken.
Strijd wakkeert weer aan
Of Opus 4.5 inderdaad het beste codemodel ter wereld is, moet in de praktijk blijken. Benchmarks geven een indicatie, maar echte gebruikerservaringen bij complexe projecten zijn uiteindelijk doorslaggevend. Denk aan Meta’s Llama-modellen, veelal bij lancering in de buurt van de beste AI-modellen op de markt als je puur naar scores kijkt, maar doorgaans geen favoriet onder werkelijke gebruikers. De Claude-reeks heeft wat dat betreft een reputatie vast te houden, waarin het regelmatig meer wordt omarmd voor AI-taken dan alleen de benchmarks doen vermoeden. Nu zijn die benchmarks voor specifieke opdrachten juist uitmuntend.
Of er echt sprake is van een blik op de toekomst, moeten we nog ervaren. Anthropic claimt dat Opus 4.5 goed omgaat met dubbelzinnigheid en zonder begeleiding veelal tot een sterk resultaat komt. Voorheen nagenoeg onmogelijke taken zouden volgens vroege gebruikers van het nieuwe model nu haalbaar zijn. “In algemene zinnen vertelden onze testers: Opus 4.5 snapt het gewoon.”