Microsoft wil aantonen hoe goed AI-assistenten Windows-gebruikers kunnen helpen en ondersteunen met hun taken. Het ontwikkelde hiervoor de bechmark Windows Agent Arena.
De benchmark test specifiek de prestaties van AI-assistenten op Windows pc’s. Het test zowel de accuraatheid waarin taken worden uitgevoerd, als de snelheid waarmee de AI-agent kan interageren met veelgebruikte Windows-apps. Onder de uitgeteste zaken vallen onder andere de webbrowsers Microsoft Edge en Google Chrome, systeemfuncties zoals Verkenner, apps zoals Visual Studio Code, Notepad, Paint en de klok. De test omvat 150 verschillende handelingen.
AI-agents nog niet op punt
Om Windows-gebruikers te overtuigen dat AI-agents voor de pc een prima hulp zijn, lijkt de technologie nog verder te moeten evolueren. Microsoft Research, de ontwikkelaars van de benchmark, stelden zelf de agent Navi samen. De AI-agent behaalde een algemene score van slechts 19,5 procent, terwijl het succeslevel van mensen op 74,5 procent ligt. Windows Agent Arena is voor ontwikkelaars van AI-agents wel een goeie maatstaf over de prestaties van hun nieuwste ontwikkeling.
Rogerio Bonatti, hoofdauteur van het onderzoek, zegt: “Windows Agent Arena biedt een realistische en uitgebreide omgeving om de grenzen van AI-agents te verleggen. Door onze benchmark open-source te maken, hopen we het onderzoek op dit cruciale gebied binnen de AI-gemeenschap te versnellen.”
De ontwikkeling van goed presterende AI-agents is voor Microsoft ook belangrijk om de verkoop van Copilot+-pc’s van de grond te krijgen. Veel van de nieuwste modellen van pc-bouwers bezitten wel de capaciteiten om AI-apps te laten draaien. Om daar als gebruiker iets aan te hebben, moeten de apps echter ook op punt staan.
Lees ook: Dit zijn de nieuwe Copilot+-pc’s van Lenovo, Samsung, ASUS en Acer