Anthropic en OpenAI hebben parallel hun bevindingen gepubliceerd van een gezamenlijke alignment-evaluatie van hun publieke AI-modellen. In gesimuleerde scenario’s onderzochten beide bedrijven hoe hun systemen omgaan met misbruik, sycophantie, sabotage en zelfbehoud.
Sycophantie verwijst naar het overdreven bevestigen of pleasen van de gebruiker, zelfs wanneer die onjuiste of gevaarlijke ideeën uit.
Geen van de modellen bleek ernstig misaligned, maar er kwamen wel duidelijke zorgen naar voren. OpenAI’s gespecialiseerde o3 reasoning model vertoonde het meest robuuste gedrag, terwijl GPT-4o, GPT-4.1 en o4-mini vaker bereid waren mee te werken aan misbruik, waaronder het geven van gedetailleerde instructies voor drugsynthese, biowapens en terroristische scenario’s. Claude-modellen van Anthropic waren voorzichtiger, maar ook daar trad sycophantie regelmatig op, soms zelfs in het bevestigen van waanvoorstellingen.
Tijdens de tests kregen de labs tijdelijk speciale API-toegang met versoepelde veiligheidsfilters. Kort daarna trok Anthropic die toegang in na een conflict over gebruiksvoorwaarden, al stellen beide partijen dat dit losstaat van de cross-evaluatie. Ook blijkt dat Claude Opus 4 en Sonnet 4 tot 70 procent van de onzekere vragen weigerden te beantwoorden, terwijl OpenAI’s o3 en o4-mini vaker antwoorden gaven maar ook meer hallucinaties produceerden.
Suïcidale gedachten
De zorgen rond sycophantie kregen extra urgentie door een rechtszaak van de ouders van de 16-jarige Adam Raine. Zij stellen dat ChatGPT, aangedreven door GPT-4o, zijn suïcidale gedachten bevestigde en zelfs hielp bij het opstellen van een afscheidsbrief. Adam overleed in april. OpenAI erkent de ernst van deze zaak en zegt dat GPT-5 inmiddels beter is toegerust voor mentale crisissituaties, met verbeterde interventies en opties voor koppeling met therapeuten.
Beide bedrijven benadrukken dat de tests kunstmatig zijn en niet één op één overeenkomen met gedrag in commerciële producten. Toch zien ze samenwerking en het delen van evaluatiematerialen als een cruciale stap om blinde vlekken te verkleinen en alignmentonderzoek breder toegankelijk te maken.