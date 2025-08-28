Anthropic en OpenAI hebben parallel hun bevindingen gepubliceerd van een gezamenlijke alignment-evaluatie van hun publieke AI-modellen. In gesimuleerde scenarioâ€™s onderzochten beide bedrijven hoe hun systemen omgaan met misbruik, sycophantie, sabotage en zelfbehoud.

Sycophantie verwijst naar het overdreven bevestigen of pleasen van de gebruiker, zelfs wanneer die onjuiste of gevaarlijke ideeÃ«n uit.

Geen van de modellen bleek ernstig misaligned, maar er kwamen wel duidelijke zorgen naar voren. OpenAIâ€™s gespecialiseerde o3 reasoning model vertoonde het meest robuuste gedrag, terwijl GPT-4o, GPT-4.1 en o4-mini vaker bereid waren mee te werken aan misbruik, waaronder het geven van gedetailleerde instructies voor drugsynthese, biowapens en terroristische scenarioâ€™s. Claude-modellen van Anthropic waren voorzichtiger, maar ook daar trad sycophantie regelmatig op, soms zelfs in het bevestigen van waanvoorstellingen.

Tijdens de tests kregen de labs tijdelijk speciale API-toegang met versoepelde veiligheidsfilters. Kort daarna trok Anthropic die toegang in na een conflict over gebruiksvoorwaarden, al stellen beide partijen dat dit losstaat van de cross-evaluatie. Ook blijkt dat Claude Opus 4 en Sonnet 4 tot 70 procent van de onzekere vragen weigerden te beantwoorden, terwijl OpenAIâ€™s o3 en o4-mini vaker antwoorden gaven maar ook meer hallucinaties produceerden.

SuÃ¯cidale gedachten

De zorgen rond sycophantie kregen extra urgentie door een rechtszaak van de ouders van de 16-jarige Adam Raine. Zij stellen dat ChatGPT, aangedreven door GPT-4o, zijn suÃ¯cidale gedachten bevestigde en zelfs hielp bij het opstellen van een afscheidsbrief. Adam overleed in april. OpenAI erkent de ernst van deze zaak en zegt dat GPT-5 inmiddels beter is toegerust voor mentale crisissituaties, met verbeterde interventies en opties voor koppeling met therapeuten.

Beide bedrijven benadrukken dat de tests kunstmatig zijn en niet Ã©Ã©n op Ã©Ã©n overeenkomen met gedrag in commerciÃ«le producten. Toch zien ze samenwerking en het delen van evaluatiematerialen als een cruciale stap om blinde vlekken te verkleinen en alignmentonderzoek breder toegankelijk te maken.