IBM creëert nieuwe benchmark voor meten AI-modellen

IBM Research heeft een benchmark gecreëerd, AGENT, om het redeneren van een AI-model te meten. Hiermee kunnen AI-modellen beter worden getraind en straks hetzelfde als mensen doen.

Volgens de onderzoekers van Big Blue is de benchmark een belangrijke ontwikkeling omdat AI-modellen en -agents meer complex worden. Steeds vaker kunnen zij een mentale status aannemen, toekomstige acties voorspellen en zelfs samenwerken met menselijke partners. Daarvoor is het handig goed te kunnen bepalen in hoeverre deze modellen over zaken als ‘gezond verstand’ beschikken en te kunnen redeneren zoals het menselijk brein doet.

AGENT benchmark

Action, Goal, Efficiency, coNstraint, uTility (AGENT) kan worden gebruikt voor het evalueren van de basisredeneringscapaciteit van een AI-model. Hiermee krijgen gebruikers dan een indruk van de ‘sociale bewustheid’ en het potentieel van het model voor het samenwerken met mensen in echte situaties.

AGENT is een groot dataset van 3D-animaties van een agent die zich beweegt met diversie fysieke restricties en daarbij interacties heeft met verschillende objecten. Op basis hiervan kunnen dan ‘bekende situaties’ en ook onbekende of verrassend situaties worden getraind.

Uiteindelijk worden hiermee een aantal concepten rondom gezond verstand vastgesteld die als onderdeel van de psychologische basis van kinderen worden beschouwd. Deze concepten worden onder meer in de benchmark in vier scenario’s gestopt, waarop de ‘denkkracht’ van een te onderzoeken AI-model wordt getest. De uitslag bepaalt dan de ‘gezondverstandscapaciteit’ van het geteste AI-model.

Eerste resultaten veelbelovend

Uit eerste testen van AGENT is inmiddels geconstateerd dat de benchmark een zeer gestructureerde tool is voor het ontwikkelen en evalueren van ‘gezond verstand’ in AI-modellen. Hiermee is het ook mogelijk AI-modellen te maken die kunnen leren en redeneren, hun beslissingen kunnen uitleggen en laten zien welke relatie objecten en ideeën met elkaar hebben. Maar ook de achterliggende psychologie en fysieke handelingen hiervoor begrijpen, net als mensen doen.

Keuze van de redactie

AI werkt pas als de infrastructuur klopt

AI staat volop in de schijnwerpers, maar zonder een robuuste infrastr...

Insight: NIS2

Lees meer over Analytics

Top story

Cognizant en Google Cloud slaan brug tussen AI-visie en praktijk met AI-lab

Cognizant heeft in samenwerking met Google Cloud een AI-lab ontwikkeld in Amsterdam. Bart Moens (Solutions Sp...

Coen van Eenbergen 21 uren geleden

Whitepapers

IBM creëert nieuwe benchmark voor meten AI-modellen

AGENT benchmark

Eerste resultaten veelbelovend

Blijf op de hoogte, abonneer!

Wat weten we over SafePay, de Ingram Micro-aanvallers?

AI werkt pas als de infrastructuur klopt

Siemens voegt AI-copilot en VR-functies toe aan NX-software

Ingram Micro al bijna dag onbereikbaar door storing

Nederlandse implementatie NIS2 weer uitgesteld; is dat erg?

Securitydatabase is Europa’s volgend stapje richting autonomie

Rijksinspectie Digitale Infrastructuur over vertraging NIS2: ‘Meer tijd om puntjes op de i te zetten’

Wacht niet op invoering van NIS2-wetgeving, je kunt nu al veel doen

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE

Versterk je cybersecurity met DNS best practices

Krijg Volledig Inzicht van Gebruiker tot Cloud met Cisco ThousandEyes

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon