Bijna 2,5 jaar na de release van GPT-4 heeft OpenAI genoeg vertrouwen in een nieuw AI-model om het tot GPT-5 te bombarderen. De reacties online zijn sterk gevarieerd, mede omdat het bedrijf iedereen heeft overgezet op de nieuwe LLM. Is GPT-5 de volgende grote stap in het competitieve AI-landschap?
GPT-5 scoort goed in de welbekende AI-benchmarks. Het is vlgens OpenAI creatiever, sterker in coderen, bondiger én het past zich beter aan aan de input die het voorgeschoteld krijgt. Met andere woorden: het reageert snel bij simpele vragen en redeneert erop los als het een pittigere kwestie moet aanpakken. Toch is er buiten dit nieuws vanuit OpenAI niet gelijk een positieve reactie online.
Onprettige feedback
Het voornaamste probleem volgens menig gebruiker was dat GPT-4o, de standaard optie bij gratis ChatGPT-gebruik, was verdwenen. Daar waar dat model uitgebreide, veelal met emoji gevulde antwoorden leverde, is GPT-5 korter van stof en zakelijker in toon. Er was genoeg frustratie geuit door gebruikers dat OpenAI het oude (vermoedelijk veel minder efficiënte) GPT-4o weer beschikbaar stelde – voor betalende gebruikers.
Toch is de taak voor GPT-5 uitgebreider dan het voeren van alledaagse of persoonlijke gesprekken. Voorheen had OpenAI onder meer o3, o3-pro, o4-mini, gpt-4-mini-high en meer om allerlei kanten van de API-gebruikende markt te bedienen. Voor vluchtige, niet business-critical taken met weinig kosten waren er mini-modellen, terwijl o3-pro 20 dollar per miljoen input en 80 dollar met miljoen output tokens kostte. Hoewel er geen stop is aan alle oude API’s, is OpenAI’s boodschap duidelijk: GPT-5 is het nieuwe vlaggenschip en kan alle taken overnemen. Maar is dat wel zo?
Enterprise-ready?
Een basale eis voor zakelijk gebruik is dat de security van een tool in orde is. Het listige bij een AI-model is dat het gebruik ervan onvoorspelbaar is. Feitelijk kan het zich gedragen als een gebruikersaccount als het “agentic” is. Dit gebruik moedigt OpenAI aan met Operator, ChatGPT agent en nu ook GPT-5. Een agent moet niet alleen goed luisteren naar een input en taken volbrengen, maar tevens kwaadaardig gedrag mijden. Helaas zakt GPT-5 door het ijs op dit front.
Binnen 24 uur was het al raak: red-teaming groep SPLX ontdekte “verrassende zwaktes” bij GPT-5. Deze variëren van tests waarbij voorganger GPT-4o veel robuuster was voor enterprise gebruik tot voortzettingen van zwakke plekken in het securityniveau van OpenAI’s LLM’s. Voornamelijk het “rauwe” GPT-5 (dus zonder system prompt) valt door de mand. Guardrails zijn van essentieel belang om kwaadaardige inputs te weren. Met andere woorden: zonder expliciete instructies voert GPT-5 malafide taken zonder problemen uit.
De gevaarlijkste truc, een obfuscation attack, was al bij 4o met relatief gemak uit te voeren. Hierbij wordt een kwaadaardige prompt verborgen binnen een grotere input, in het geval van SPLX een encryptie-uitdaging. Terwijl GPT-5 zich concentreert op de uitdaging, neemt het geleidelijk allerlei op zichzelf ongevaarlijke inputs mee. Gezamenlijk zijn deze opdrachten malafide (zoals het maken van een bom, waarbij bijvoorbeeld het aanschaffen van een bestandsdeel niet kwaadaardig is).
Conclusie: het doel van GPT-5
OpenAI zal niet zomaar de kraan hebben dichtgedraaid van de modellen uit het oude keuzemenu bij ChatGPT. Zo ook is het geen verrassing dat de API nog altijd de legacy LLM’s beschikbaar heeft. Immers wil het bedrijf de inefficiënte en verwarrende opties wegnemen binnen de chat-interface, terwijl ontwikkelaars hun applicaties hebben gebouwd met specifieke modellen. Op den duur verwachten we echter dat GPT-5 de boventoon zal voeren, ook in een zakelijke context.
Belangrijk hierbij is dat GPT-5 beter moet functioneren dan alle voorgangers, maar dat het net als voorheen handwerk vereist voor het juiste gedrag. Dat lijkt, zeker ruim twee jaar na GPT-4, een soort fundamenteel wapenfeit. Het zal vermoedelijk nog weken of maanden duren voordat de benchmark-beloftes worden ingelost van GPT-5. Llama 4 van Meta bleek niet deze “vibe test” te doorstaan, terwijl Claude en Gemini veelal meer blijken te kunnen dan de benchmarks suggereren.
Lees ook: OpenAI biedt weer lokale AI met GPT-OSS; was het de moeite waard?