AI-agents lijken tot veel in staat, maar raken snel overweldigd als ze te veel taken krijgen. LangChain deed experimenten om te ontdekken wanneer en waarom hun prestaties op deze manier instorten.
LangChain stelde AI-agents bloot aan verschillende experimenten en ontdekte dat een enkele agent een limiet heeft op het gebied van context en tools. VentureBeat schrijft over de bevindingen. Na het bereiken van die limiet nemen de prestaties af. Deze experimenten dragen bij aan een beter begrip van de architectuur die nodig is om agenten en multi-agentsystemen effectief te onderhouden.
In een blogpost beschrijft LangChain een reeks experimenten die het uitvoerde met een enkele ReAct-agent. En het bedrijf legt uit hoe het de prestaties vergeleek. Het ging LangChain met name om de vraag op welk moment een enkele ReAct-agent overbelast is door instructies en tools waardoor de prestaties dalen.
LangChain koos voor de ReAct-agentarchitectuur omdat dit, zoals het bedrijf stelt, een van de meest basale agent-architecturen is.
Hoewel het benchmarks van agent-prestaties vaak tot misleidende resultaten leidt, beperkte LangChain de test tot twee eenvoudig kwantificeerbare taken van een agent. De gebruikte agent was een e-mailassistent, die verantwoordelijk is voor twee hoofdwerkgebieden, namelijk het beantwoorden en plannen van vergaderverzoeken en het ondersteunen van klanten met hun vragen.
LangChain gebruikte voornamelijk vooraf gebouwde ReAct-agents via het LangGraph-platform. Deze agents bevatten taalmodellen (LLM’s) met tool-aanroepfuncties die deel uitmaakten van de benchmarktest. De geteste LLM’s waren onder meer Claude 3.5 Sonnet van Anthropic, Llama-3.3-70B van Meta en drie modellen van OpenAI: GPT-4o, o1 en o3-mini.
Verschillende stappen
Om de prestaties van de e-mailassistent goed te kunnen beoordelen, splitste men het testen op in verschillende stappen. Eerst keken de testers naar de klantenservicecapaciteiten van de agent. Hoe accepteert de agent een e-mail van een klant en reageert hij daarop?
LangChain evalueerde allereerst het traject van het tool-aanroepen. Welke tools gebruikt de agent en in welke volgorde? Als de agent de juiste volgorde volgde, slaagde hij voor de test. Vervolgens werd de e-mailrespons beoordeeld door een LLM. Voor het tweede werkgebied, het plannen van vergaderingen, richtte LangChain zich op het vermogen van de agent om instructies op te volgen.
Overbelasting van de agent
Toen de parameters waren vastgesteld, probeerde LangChain de e-mailassistent zoveel mogelijk te belasten. Het bedrijf testte 30 taken per domein (klantenservice en agenda-planning). En dat drie keer per taak (in totaal 90 runs). Om de taken beter te evalueren, creëerde LangChain twee afzonderlijke agents. En wel één voor agendabeheer en één voor klantenservice. Daarbij had de agendabeheeragent alleen toegang tot het domein van agendabeheer. De klantenserviceagent had alleen toegang tot het domein van klantenservice.
Daarna werden meer taken en tools toegevoegd aan de agents om hun verantwoordelijkheden uit te breiden. Dit varieerde van HR-taken tot technische kwaliteitscontrole en juridische naleving.
Alle modellen lieten steken vallen
Na de tests ontdekte LangChain dat een enkele agent overweldigd raakt wanneer hij te veel taken krijgt. De agent begon tools niet meer correct aan te roepen of slaagde er niet in om taken uit te voeren wanneer de instructies en context toenamen.
De resultaten lieten zien dat GPT-4o bij agenda-planning slechter presteerde dan Claude-3.5-Sonnet, o1 en o3 bij grotere contexten. De prestaties van GPT-4o daalden naar slechts 2% wanneer het aantal domeinen steeg tot zeven of meer.
Andere modellen presteerden niet veel beter. Llama-3.3-70B vergat de tool voor het verzenden van e-mails aan te roepen, waardoor het in alle testcases faalde. Claude-3.5-Sonnet, o1 en o3-mini wisten de tool nog wel te activeren. Maar Claude-3.5-Sonnet presteerde minder goed dan de OpenAI-modellen. o3-mini’s prestaties namen af zodra irrelevante domeinen aan de instructies werden toegevoegd.
De klantenserviceagent kon meer tools gebruiken, maar in deze test presteerde Claude-3.5-mini net zo goed als o3-mini en o1. Deze agent vertoonde ook een minder scherpe prestatieafname bij meer domeinen. Wanneer het contextvenster echter werd uitgebreid, presteerde Claude slechter. GPT-4o scoorde in vrijwel alle tests het slechtst van alle geteste modellen.
LangChain onderzoekt nu hoe het multi-agent architecturen kan evalueren met dezelfde overbelastingsmethode.