IBM creëert nieuwe benchmark voor meten AI-modellen

Abonneer je gratis op Techzine!

IBM Research heeft een benchmark gecreëerd, AGENT, om het redeneren van een AI-model te meten. Hiermee kunnen AI-modellen beter worden getraind en straks hetzelfde als mensen doen.

Volgens de onderzoekers van Big Blue is de benchmark een belangrijke ontwikkeling omdat AI-modellen en -agents meer complex worden. Steeds vaker kunnen zij een mentale status aannemen, toekomstige acties voorspellen en zelfs samenwerken met menselijke partners. Daarvoor is het handig goed te kunnen bepalen in hoeverre deze modellen over zaken als ‘gezond verstand’ beschikken en te kunnen redeneren zoals het menselijk brein doet.

AGENT benchmark

Action, Goal, Efficiency, coNstraint, uTility (AGENT) kan worden gebruikt voor het evalueren van de basisredeneringscapaciteit van een AI-model. Hiermee krijgen gebruikers dan een indruk van de ‘sociale bewustheid’ en het potentieel van het model voor het samenwerken met mensen in echte situaties.

AGENT is een groot dataset van 3D-animaties van een agent die zich beweegt met diversie fysieke restricties en daarbij interacties heeft met verschillende objecten. Op basis hiervan kunnen dan ‘bekende situaties’ en ook onbekende of verrassend situaties worden getraind.

Uiteindelijk worden hiermee een aantal concepten rondom gezond verstand vastgesteld die als onderdeel van de psychologische basis van kinderen worden beschouwd. Deze concepten worden onder meer in de benchmark in vier scenario’s gestopt, waarop de ‘denkkracht’ van een te onderzoeken AI-model wordt getest. De uitslag bepaalt dan de ‘gezondverstandscapaciteit’ van het geteste AI-model.

Eerste resultaten veelbelovend

Uit eerste testen van AGENT is inmiddels geconstateerd dat de benchmark een zeer gestructureerde tool is voor het ontwikkelen en evalueren van ‘gezond verstand’ in AI-modellen. Hiermee is het ook mogelijk AI-modellen te maken die kunnen leren en redeneren, hun beslissingen kunnen uitleggen en laten zien welke relatie objecten en ideeën met elkaar hebben. Maar ook de achterliggende psychologie en fysieke handelingen hiervoor begrijpen, net als mensen doen.