Arbor laat AI-agents leren van hun eigen fouten

Onderzoekers van Microsoft Research en de Renmin University of China presenteren een nieuw framework dat AI-agents beter moet maken in het optimaliseren van software en machine learning-systemen. Volgens hun onderzoek presteert Arbor daarbij aanzienlijk beter dan bestaande oplossingen zoals Claude Code en Codex.

Het project richt zich volgens VentureBeat op een bekend probleem. AI-systemen die tijdens ontwikkeling goed functioneren, blijken in productie soms verkeerde antwoorden te geven of belangrijke randvoorwaarden te missen. Het verbeteren van zulke systemen verloopt vaak via een reeks aanpassingen aan prompts, zoekmethoden en andere instellingen, waardoor lastig is vast te stellen welke wijziging werkelijk effect heeft.

Volgens de onderzoekers ontbreekt het bestaande coding agents niet aan rekenkracht, maar aan een manier om ervaringen uit eerdere experimenten vast te houden en opnieuw te gebruiken. Daardoor dreigen ze dezelfde fouten te herhalen.

Arbor kiest daarom voor een andere architectuur. Een centrale coördinator bepaalt de onderzoeksrichting en beoordeelt resultaten, terwijl afzonderlijke agents experimenten uitvoeren in geïsoleerde omgevingen. Zo kunnen meerdere oplossingsrichtingen parallel worden getest zonder elkaar te beïnvloeden.

Kennisboom als geheugen

De basis van Arbor is een zogenoemde Hypothesis Tree Refinement-structuur. Hypotheses, experimenten, resultaten en conclusies worden opgeslagen in een boomstructuur die tijdens het optimalisatieproces groeit.

Mislukte experimenten verdwijnen niet uit beeld, maar worden vastgelegd als kennis. Daardoor voorkomt het systeem dat dezelfde fout later opnieuw wordt gemaakt. Succesvolle resultaten kunnen juist worden vertaald naar bredere inzichten die nieuwe experimenten sturen.

Als voorbeeld noemen de onderzoekers een RAG-omgeving. Waar traditionele agents vaak meerdere onderdelen tegelijk aanpassen, behandelt Arbor elke wijziging als een afzonderlijke hypothese. Daardoor wordt beter zichtbaar welke verandering daadwerkelijk bijdraagt aan betere prestaties.

Beter dan Claude Code en Codex

Voor de tests gebruikten de onderzoekers onder meer GPT-5.5, Claude Opus 4.6 en Gemini-3-Flash als onderliggende modellen. Arbor werd vervolgens vergeleken met Claude Code en Codex onder dezelfde budget- en rekenvoorwaarden.

Volgens de resultaten realiseerde Arbor gemiddeld meer dan 2,5 keer zoveel prestatieverbetering als de concurrerende systemen. In een benchmark rond zoekoptimalisatie steeg de nauwkeurigheid van 45,3 naar 67,7 procent. Claude Code en Codex bleven steken op respectievelijk 53,3 en 50 procent.

Daarnaast bleek Arbor minder gevoelig voor overfitting. Verbeteringen die tijdens ontwikkeling werden gevonden, bleven beter overeind op onafhankelijke testdata.

De onderzoekers zien vooral toepassingen in langdurige optimalisatietrajecten, zoals AI-pijplijnen, modeltraining en datasynthese. Daar staat tegenover dat de aanpak relatief veel tokens, opslag en rekenkracht vraagt.

Ook blijft de kwaliteit van de uitkomsten afhankelijk van de gebruikte evaluatiemethode. Een gebrekkige metric leidt volgens de onderzoekers vooral tot sneller optimaliseren in de verkeerde richting.

Lees meer over Devops

Expert aan het woord

Tech calendar

Arbor laat AI-agents leren van hun eigen fouten

Kennisboom als geheugen

Beter dan Claude Code en Codex

Blijf op de hoogte, abonneer!

AI zet decennia cybersecurity op zijn kop

Scaling at speed: Hoe AI de blauwdruk van het moderne datacenter herschrijft

SpaceX koopt Cursor voor 60 miljard

Van app-centrisch naar open en datacentrisch: kan Everpure de belofte waarmaken?

How Google scaled Kubernetes to 130,000 nodes for AI workloads

How JFrog secures binaries in the age of AI coding assistants

How HPE brought two networking giants together in under one year

Buying GPUs doesn't deliver AI value, according to AWS

AMD “Helios”: Rack-scale AI-infrastructuur voor ondernemingen in EMEA

De strategische opdracht: bouwen aan een AI-stack waar Europa op kan vertrouwen

De rol van een WMS systeem in de moderne IT-architectuur

Liquid cooling dwingt datacenters tot andere ontwerpkeuzes

GITEX AI EUROPE 2026

GOTO Copenhagen 2026

Tijd om virtualisatie te evalueren

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Zo gaat jouw IT-organisatie van reactief trainen naar roadmap-gedreven skills-opbouw