3min Devops

Arbor laat AI-agents leren van hun eigen fouten

Arbor laat AI-agents leren van hun eigen fouten

Onderzoekers van Microsoft Research en de Renmin University of China presenteren een nieuw framework dat AI-agents beter moet maken in het optimaliseren van software en machine learning-systemen. Volgens hun onderzoek presteert Arbor daarbij aanzienlijk beter dan bestaande oplossingen zoals Claude Code en Codex.

Het project richt zich volgens VentureBeat op een bekend probleem. AI-systemen die tijdens ontwikkeling goed functioneren, blijken in productie soms verkeerde antwoorden te geven of belangrijke randvoorwaarden te missen. Het verbeteren van zulke systemen verloopt vaak via een reeks aanpassingen aan prompts, zoekmethoden en andere instellingen, waardoor lastig is vast te stellen welke wijziging werkelijk effect heeft.

Volgens de onderzoekers ontbreekt het bestaande coding agents niet aan rekenkracht, maar aan een manier om ervaringen uit eerdere experimenten vast te houden en opnieuw te gebruiken. Daardoor dreigen ze dezelfde fouten te herhalen.

Arbor kiest daarom voor een andere architectuur. Een centrale coördinator bepaalt de onderzoeksrichting en beoordeelt resultaten, terwijl afzonderlijke agents experimenten uitvoeren in geïsoleerde omgevingen. Zo kunnen meerdere oplossingsrichtingen parallel worden getest zonder elkaar te beïnvloeden.

Kennisboom als geheugen

De basis van Arbor is een zogenoemde Hypothesis Tree Refinement-structuur. Hypotheses, experimenten, resultaten en conclusies worden opgeslagen in een boomstructuur die tijdens het optimalisatieproces groeit.

Mislukte experimenten verdwijnen niet uit beeld, maar worden vastgelegd als kennis. Daardoor voorkomt het systeem dat dezelfde fout later opnieuw wordt gemaakt. Succesvolle resultaten kunnen juist worden vertaald naar bredere inzichten die nieuwe experimenten sturen.

Als voorbeeld noemen de onderzoekers een RAG-omgeving. Waar traditionele agents vaak meerdere onderdelen tegelijk aanpassen, behandelt Arbor elke wijziging als een afzonderlijke hypothese. Daardoor wordt beter zichtbaar welke verandering daadwerkelijk bijdraagt aan betere prestaties.

Beter dan Claude Code en Codex

Voor de tests gebruikten de onderzoekers onder meer GPT-5.5, Claude Opus 4.6 en Gemini-3-Flash als onderliggende modellen. Arbor werd vervolgens vergeleken met Claude Code en Codex onder dezelfde budget- en rekenvoorwaarden.

Volgens de resultaten realiseerde Arbor gemiddeld meer dan 2,5 keer zoveel prestatieverbetering als de concurrerende systemen. In een benchmark rond zoekoptimalisatie steeg de nauwkeurigheid van 45,3 naar 67,7 procent. Claude Code en Codex bleven steken op respectievelijk 53,3 en 50 procent.

Daarnaast bleek Arbor minder gevoelig voor overfitting. Verbeteringen die tijdens ontwikkeling werden gevonden, bleven beter overeind op onafhankelijke testdata.

De onderzoekers zien vooral toepassingen in langdurige optimalisatietrajecten, zoals AI-pijplijnen, modeltraining en datasynthese. Daar staat tegenover dat de aanpak relatief veel tokens, opslag en rekenkracht vraagt.

Ook blijft de kwaliteit van de uitkomsten afhankelijk van de gebruikte evaluatiemethode. Een gebrekkige metric leidt volgens de onderzoekers vooral tot sneller optimaliseren in de verkeerde richting.