Anthropic heeft een nieuwe constitutie (grondwet) gepubliceerd voor zijn AI-model Claude. In dit document beschrijft het bedrijf welke waarden, gedragsprincipes en afwegingen het model moet volgen bij het verwerken van gebruikersvragen.
De constitutie is openbaar beschikbaar gesteld onder een Creative Commons CC0-licentie, waardoor de inhoud vrij kan worden gebruikt zonder toestemming.
Anthropic publiceerde de eerste versie van deze constitutie in mei 2023. Volgens het bedrijf bleek die eerdere versie beperkingen te hebben, onder meer doordat Claude moeite had om veiligheids- en gedragsrichtlijnen correct toe te passen in nieuwe of onvoorziene situaties. Wanneer instructies geen expliciete aanwijzingen gaven voor een specifieke prompt, kon het model alsnog ongewenste of onjuiste antwoorden genereren, meldt SiliconANGLE.
De nieuwe constitutie maakt daarom niet alleen gebruik van instructies, maar bevat ook uitgebreide toelichtingen op de achterliggende redenen voor gewenst gedrag. Anthropic stelt dat deze uitleg het voor Claude eenvoudiger maakt om de richtlijnen toe te passen op onbekende taken of contexten.
Vier kernuitgangspunten voor gedrag Claude
In tegenstelling tot eerdere versies bestaat het document niet uit losse principes, maar uit een samenhangende beschrijving van prioriteiten en context. De constitutie is opgebouwd rond vier kernuitgangspunten die richting geven aan het gedrag van Claude. Daarbij wordt onder meer beschreven dat het model behulpzaam moet zijn door antwoorden af te stemmen op de expliciete wensen van gebruikers. Als voorbeeld noemt Anthropic dat Claude geen code zou moeten genereren in een andere programmeertaal dan door de gebruiker is gevraagd, zo meldt SiliconANGLE.
Daarnaast beschrijft het document wat Anthropic verstaat onder breed veilig”gedrag. Daaronder valt onder meer dat Claude geen handelingen mag uitvoeren die door een gebruiker expliciet zijn verboden en dat het model transparant moet zijn over hoe beslissingen tot stand komen. Verder bevat de constitutie richtlijnen voor ethisch handelen en voor het naleven van aanvullende, meer specifieke instructies van Anthropic. Die aanvullende richtlijnen hebben onder andere betrekking op het afweren van jailbreaking-pogingen en op interacties met externe applicaties en tools.
Anthropic geeft aan dat de constitutie een directe rol speelt in het trainen van Claude. Het document maakt deel uit van de trainingsdata. Het wordt door de modellen ook gebruikt om synthetische trainingsgegevens te genereren. Bijvoorbeeld door het simuleren van gesprekken waarin de richtlijnen uit de constitutie van toepassing zijn.
Volgens het bedrijf heeft de constitutie daarnaast een functie richting klanten en gebruikers. Organisaties die Claude inzetten kunnen het document gebruiken om te beoordelen of de output van het model in lijn is met de vastgelegde uitgangspunten. Als dat niet het geval is, kunnen zij feedback terugkoppelen aan Anthropic.
Ook andere AI-aanbieders publiceren gedragskaders
De publicatie past binnen een bredere ontwikkeling waarbij AI-ontwikkelaars hun uitgangspunten en gedragskaders expliciet vastleggen. Ook andere partijen in de sector maakten vergelijkbare documenten openbaar. Zo hanteert OpenAI Group PBC eveneens een CC0-licentie voor zijn eigen AI-constitutie, die onderdeel vormt van de trainingsdata van GPT-5.
Anthropic benadrukt dat de constitutie geen statisch document is. Het bedrijf verwacht dat de inhoud zal worden aangepast naarmate AI-systemen verder worden ontwikkeld.