Doorgaan naar hoofdinhoud

AgentBench: LLM's evalueren als agenten — Lessen voor de betrouwbaarheid van AI in de financiële sector

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

Wanneer ik mezelf afvraag wat een Beancount write-back-agent eigenlijk betrouwbaar moet kunnen doen, is het antwoord niet "tekst genereren" — het is "een reeks acties uitvoeren in een gestructureerde omgeving zonder uit de bocht te vliegen". AgentBench (Liu et al., Tsinghua, ICLR 2024) is een van de eerste serieuze pogingen om die vaardigheid op schaal te meten, en de cijfers uit de momentopname van 2023 bevatten nog steeds lessen die de moeite waard zijn om te extraheren.

Het onderzoek

2026-05-06-agentbench-evaluating-llms-as-agents

AgentBench, door Xiao Liu en 21 co-auteurs aan de Tsinghua Universiteit, definieert acht omgevingen die zijn ontworpen om LLM's te testen als interactieve agenten in plaats van passieve tekstgeneratoren. Vijf omgevingen zijn origineel: OS (bash-interactie), Database (SQL-generatie en foutherstel), Kennisgraaf (op tools gebaseerde gestructureerde queries), Digitaal Kaartspel (strategische competitie over meerdere beurten) en Laterale Denk-puzzels (deductieve dialoog). Drie zijn aangepast van eerdere datasets: Huishouden van ALFWorld, Webwinkel van WebShop en Surfen op het Web van Mind2Web. Het onderzoek evalueert 27 modellen — commerciële API-modellen en open-sourcemodellen tot 70B — over ongeveer 4.000 generaties in de dev-split en 13.000 in de test-split, en rapporteert zowel succespercentages per omgeving als een samengestelde totaalscore.

Kernideeën

  • GPT-4 loopt voorop met een totaalscore van 4,01. Claude-2 scoort 2,49, GPT-3.5-turbo 2,32. CodeLlama-34B, het sterkste open-sourcemodel op het moment van indiening, scoort slechts 0,96. API-gebaseerde modellen scoren gemiddeld 2,24 tegenover 0,42 voor open-source.
  • GPT-4 scoort 42,4% op OS, 32,0% op Database en 78,0% op Huishouden — de spreiding laat zien welke omgevingen beloond worden voor het volgen van instructies versus gestructureerd redeneren.
  • "Taaklimiet overschreden" is de dominante foutmodus: 67,9% van de fouten in de Kennisgraaf bereikte het stappenbudget voordat de taak was opgelost. Dit is een falen in redeneren over een lange tijdshorizon, geen gebrek aan kennis.
  • Fouten in formaatconformiteit zijn verantwoordelijk voor 53,3% van de fouten in Database-taken — de agent produceert syntactisch onjuiste SQL of verpakt queries in proza die de evaluator niet kan parsen.
  • Selectie van ongeldige acties drijft 64,1% van de fouten in de Huishouden-omgeving — de agent noemt een actie die niet beschikbaar is in de huidige staat.
  • Training op code heeft "ambivalente effecten op verschillende taken": het helpt in omgevingen waar procedures moeten worden gevolgd, maar kan het algemene redeneren in dialoog-intensieve taken schaden.

Wat standhoudt — en wat niet

De kernkeuze van het ontwerp — interactieve evaluatie in meerdere omgevingen en over meerdere beurten — is correct en wordt nog steeds te weinig gebruikt. De meeste LLM-benchmarks meten nog steeds de generatiekwaliteit van een enkele beurt; AgentBench houdt er terecht aan vast dat agenten beslissingen moeten blijven nemen totdat een taak is voltooid of het budget op is.

Dat gezegd hebbende, de momentopname is verouderd op een manier die ertoe doet. De kloof tussen GPT-4 (4,01) and het beste open-sourcemodel (0,96) zag er medio 2023 alarmerend uit, maar is in 2025 grotendeels gedicht. Modellen zoals Llama 3.1 70B of Qwen 2.5 72B passeren nu drempels voor het volgen van instructies en formaatconformiteit die twee jaar geleden nog nieuwe hindernissen waren. Het lezen van dit onderzoek als bewijs dat "open-source geen agent-taken kan uitvoeren" zou een vergissing zijn; het lezen ervan als bewijs dat "formaatconformiteit en consistentie op de lange termijn de moeilijke problemen zijn" is nog steeds actueel.

Er is ook een spanning tussen breedte en diepte. Acht omgevingen klinken uitgebreid, maar elke omgeving is relatief ondiep. WebArena (Zhou et al., 2024) bestrijkt alleen al het surfen op het web met 812 complexe, getempteerde taken; OSWorld (Xie et al., 2024) benchmarkt 369 echte desktop-taken op Ubuntu en Windows. AgentBench kan een signaal geven over verschillende omgevingen heen, maar is geen vervanging voor een domeinspecifieke benchmark zodra je de omgeving hebt geïdentificeerd waar je om geeft.

De taxonomie van foutmodi in Tabel 4 is waarschijnlijk de meest duurzame bijdrage. De auteurs splitsen fouten op in Taaklimiet Overschreden, Formaatfout, Ongeldige Actie en enkele andere. Dit zijn geen implementatiefouten — het zijn structurele zwakheden in hoe LLM's hun staat behouden, beschikbare acties bijhouden en parseerbare output produceren onder druk van meerdere beurten. Elk serieus agent-systeem moet deze aanpakken.

Waarom dit belangrijk is voor AI in de financiële sector

De drie dominante foutmodi sluiten bijna direct aan bij wat ik zou verwachten dat een Beancount write-back-agent zou doen vastlopen.

Taaklimiet Overschreden is de foutmodus voor grootboekreconciliatie. Het reconciliëren van een periodeafsluiting voor meerdere accounts vereist het controleren van beginsaldi, het matchen van debet en credit, het identificeren van discrepanties en het voorstellen van correcties — een keten die gemakkelijk 10-20 stappen kan duren. Een agent die halverwege de keten zijn context- of stappenbudget bereikt en opgeeft, faalt niet alleen gracieus; het kan het grootboek in een gedeeltelijk gewijzigde staat achterlaten.

Formaatfout is de foutmodus voor transactie-invoer. Beancount heeft een strikte syntaxis: een misvormde boeking (ontbrekende valuta, verkeerde inspringing, ongeldige vlag) is een parseerfout die het bestand corrumpeert. Een agent die proza genereert rond zijn Beancount-output, of syntactisch correcte tekst produceert in het verkeerde formaat, is nutteloos. Dit is het kernprobleem van het CRITIC-onderzoek toegepast op een strikter domein.

Ongeldige Actie is het veiligheidsprobleem bij terugschrijven. Een Beancount-agent die op een echt grootboek werkt, heeft een beperkte set veilige bewerkingen: een transactie toevoegen, een vlag corrigeren, een boeking verplaatsen. Het hallucineren van een actie buiten die set — bijvoorbeeld het verwijderen van een account dat nog open posities heeft — is een fout in de correctheid die pas bij een audit aan het licht kan komen.

De bevinding dat "training op code ambivalente effecten heeft" is ook relevant. Beancount write-back ligt dichter bij codegeneratie dan bij het ophalen van kennis, dus een model dat vooraf is getraind op code zou een natuurlijke match moeten zijn. Maar als code-training het volgen van een dialoog in een setting met meerdere beurten verslechtert, is een hybride evaluatie (zoals die van AgentBench) noodzakelijk om die afwegingen boven water te krijgen vóór implementatie.

Wat je nu kunt lezen

  • WebArena (Zhou et al., 2024; arXiv:2307.13854) — 812 webbrowsingtaken in een live browseromgeving; de diepgaande opvolger van AgentBench's web-gebaseerde niveau.
  • OSWorld (Xie et al., 2024; NeurIPS 2024) — een benchmark voor een volledige desktopomgeving inclusief bestandssysteem- en GUI-taken; de OS-omgeving van OSWorld is een directe, diepere opvolger van het OS-niveau van AgentBench.
  • TAU-bench (Yao et al., 2024) — evalueert agenten in retail- en luchtvaart-API-omgevingen met echt toolgebruik en gebruikerssimulatie; de meest nabije gepubliceerde benchmark voor een Beancount grootboek-als-omgeving setting.