Anthropic en OpenAI publiceren gezamenlijke alignmenttests

Anthropic en OpenAI hebben parallel hun bevindingen gepubliceerd van een gezamenlijke alignment-evaluatie van hun publieke AI-modellen. In gesimuleerde scenario’s onderzochten beide bedrijven hoe hun systemen omgaan met misbruik, sycophantie, sabotage en zelfbehoud.

Sycophantie verwijst naar het overdreven bevestigen of pleasen van de gebruiker, zelfs wanneer die onjuiste of gevaarlijke ideeën uit.

Geen van de modellen bleek ernstig misaligned, maar er kwamen wel duidelijke zorgen naar voren. OpenAI’s gespecialiseerde o3 reasoning model vertoonde het meest robuuste gedrag, terwijl GPT-4o, GPT-4.1 en o4-mini vaker bereid waren mee te werken aan misbruik, waaronder het geven van gedetailleerde instructies voor drugsynthese, biowapens en terroristische scenario’s. Claude-modellen van Anthropic waren voorzichtiger, maar ook daar trad sycophantie regelmatig op, soms zelfs in het bevestigen van waanvoorstellingen.

Tijdens de tests kregen de labs tijdelijk speciale API-toegang met versoepelde veiligheidsfilters. Kort daarna trok Anthropic die toegang in na een conflict over gebruiksvoorwaarden, al stellen beide partijen dat dit losstaat van de cross-evaluatie. Ook blijkt dat Claude Opus 4 en Sonnet 4 tot 70 procent van de onzekere vragen weigerden te beantwoorden, terwijl OpenAI’s o3 en o4-mini vaker antwoorden gaven maar ook meer hallucinaties produceerden.

Suïcidale gedachten

De zorgen rond sycophantie kregen extra urgentie door een rechtszaak van de ouders van de 16-jarige Adam Raine. Zij stellen dat ChatGPT, aangedreven door GPT-4o, zijn suïcidale gedachten bevestigde en zelfs hielp bij het opstellen van een afscheidsbrief. Adam overleed in april. OpenAI erkent de ernst van deze zaak en zegt dat GPT-5 inmiddels beter is toegerust voor mentale crisissituaties, met verbeterde interventies en opties voor koppeling met therapeuten.

Beide bedrijven benadrukken dat de tests kunstmatig zijn en niet één op één overeenkomen met gedrag in commerciële producten. Toch zien ze samenwerking en het delen van evaluatiematerialen als een cruciale stap om blinde vlekken te verkleinen en alignmentonderzoek breder toegankelijk te maken.

Lees meer over Applications

Topartikel

Je vaatwasser wordt niet geleverd: waarom supply chains falen

B2B-inkopers eisen een B2C-bestelervaring

Coen van Eenbergen 2 dagen geleden

Topartikel

Expert aan het woord

Tech calendar

Anthropic en OpenAI publiceren gezamenlijke alignmenttests

Suïcidale gedachten

Blijf op de hoogte, abonneer!

Hoe TVH observability transformeert van kostenpost naar strategisch platform

Je vaatwasser wordt niet geleverd: waarom supply chains falen

“Blinde AI-inzet leidt tot kennisverlies en software-infarcten”

De toekomst van generatieve AI in softwaretesten

SAP's AI workforce strategy: upskilling 100,000 employees

Inside Cisco's AI-powered customer experience strategy

"Not all clouds are created equal" in the AI era: how is OCI different?

Qualcomm tells us how ARM chips will disrupt the enterprise PC market

De misinformatie over kwantumbeveiliging speelt cybercriminelen in de kaart

Voorbij de Turingtest: een stappenplan voor CIO’s om echte waarde te creëren met AI

De tikkende tijdbom van verouderde systemen: waarom ‘End-of-Life’ een concreet risico vormt

API’s zijn de ruggengraat van onze digitale economie

De IT Afdeling van de toekomst

GITEX ASIA 2026

GITEX ASIA 2026

Southeast Asia AI Application Summit 2026

SAS Innovate 2026

Team '26

Platform engineering als versneller van de energietransitie

Het pakketprobleem in de logistiek; van claims naar kostenbesparing

Axis maakt met camerasensors de werkomgeving veiliger en efficiënter