Microsoft lanceert benchmark om prestaties AI-agents te verbeteren

Microsoft wil aantonen hoe goed AI-assistenten Windows-gebruikers kunnen helpen en ondersteunen met hun taken. Het ontwikkelde hiervoor de bechmark Windows Agent Arena.

De benchmark test specifiek de prestaties van AI-assistenten op Windows pc’s. Het test zowel de accuraatheid waarin taken worden uitgevoerd, als de snelheid waarmee de AI-agent kan interageren met veelgebruikte Windows-apps. Onder de uitgeteste zaken vallen onder andere de webbrowsers Microsoft Edge en Google Chrome, systeemfuncties zoals Verkenner, apps zoals Visual Studio Code, Notepad, Paint en de klok. De test omvat 150 verschillende handelingen.

AI-agents nog niet op punt

Om Windows-gebruikers te overtuigen dat AI-agents voor de pc een prima hulp zijn, lijkt de technologie nog verder te moeten evolueren. Microsoft Research, de ontwikkelaars van de benchmark, stelden zelf de agent Navi samen. De AI-agent behaalde een algemene score van slechts 19,5 procent, terwijl het succeslevel van mensen op 74,5 procent ligt. Windows Agent Arena is voor ontwikkelaars van AI-agents wel een goeie maatstaf over de prestaties van hun nieuwste ontwikkeling.

Rogerio Bonatti, hoofdauteur van het onderzoek, zegt: “Windows Agent Arena biedt een realistische en uitgebreide omgeving om de grenzen van AI-agents te verleggen. Door onze benchmark open-source te maken, hopen we het onderzoek op dit cruciale gebied binnen de AI-gemeenschap te versnellen.”

De ontwikkeling van goed presterende AI-agents is voor Microsoft ook belangrijk om de verkoop van Copilot+-pc’s van de grond te krijgen. Veel van de nieuwste modellen van pc-bouwers bezitten wel de capaciteiten om AI-apps te laten draaien. Om daar als gebruiker iets aan te hebben, moeten de apps echter ook op punt staan.

Lees ook: Dit zijn de nieuwe Copilot+-pc’s van Lenovo, Samsung, ASUS en Acer

Lees meer over Applications

Topartikel

Het probleem met AI model routing

Tokenmaxxing is grotendeels een stille dood gestorven. Het is tot bedrijven doorgedrongen dat ranglijsten die...

Erik van Klinken 6 juli 2026

DevRev brengt Voice AI naar agentic platform Computer

DevRev voegt Voice AI toe aan de Customer Agent binnen zijn platform Computer. Daarmee krijgen spraakagents d...

Berry Zwets 23 juli 2026

Topartikel

Weer paniek om Chinees AI-model, weer slaat die paniek door

Wall Street is hardleers. Toen begin vorig jaar de aandelen van allerlei techbedrijven hard omlaag gingen, we...

Erik van Klinken 17 juli 2026

Claude Opus 5: nagenoeg Fable voor de helft van de prijs

In navolging van Fable 5 en Sonnet 5 komt Anthropic met Opus 5, een LLm die nagenoeg dezelfde resultaten beha...

Erik van Klinken 24 juli 2026

Expert aan het woord

Tech calendar

Microsoft lanceert benchmark om prestaties AI-agents te verbeteren

AI-agents nog niet op punt

Blijf op de hoogte, abonneer!

Cisco komt met Antares SLM’s: hoe sporen deze modellen kwetsbaarheden in code op?

CPU’s beleven eindelijk hun AI-doorbraak

Het water- en energieverbruik van datacenters in de juiste context

The power revolution coming to AI data centers

Why enterprises are running VMs on Kubernetes with Portworx

From edge nodes to 256-GPU clusters: HPE's private cloud explained

Why OpenSearch doubled downloads under open governance

Een AI-agent die in negen seconden een productiedatabase wiste: vijf lessen

ODC-Noord: bouwstenen voor een overheidscloud die al draait

Cyberoperatie INTERPOL en Fortinet legt nieuwe vormen van online mensenhandel bloot

Naarmate shadow AI zich verspreidt, heroverwegen bedrijven waar AI-workloads thuishoren

Dreamforce

GOTO Copenhagen 2026

NetApp INSIGHT 2026

Manhattan EMEA Exchange

Cyberrisico’s zetten bedrijfscontinuïteit het meest onder druk

Hoe bouw je veilig agentic AI-applicaties in enterprise-omgevingen?

De opkomst van de Managed Intelligence Provider

Hoe zet je AI veilig in binnen applicatieontwikkeling?