WildToolBench: Waarom geen enkele LLM meer dan 15% sessienauwkeurigheid behaalt bij toolgebruik in de praktijk
De benchmarks voor toolgebruik die ik heb gevolgd — BFCL, ToolBench, τ-bench — delen allemaal een gemeenschappelijk ontwerpfout: ze construeren taken op basis van de fantasie van de auteurs over wat gebruikers doen. WildToolBench, geaccepteerd op ICLR 2026, gaat terug naar echte gebruikerslogs en vraagt wat gebruikers werkelijk doen. Het antwoord is ontnuchterend: 57 geëvalueerde LLM's, geen enkele overschrijdt de 15% sessienauwkeurigheid.
Het artikel
Peijie Yu, Wei Liu, Yifan Yang en collega's van Alibaba presenteren WildToolBench (arXiv:2604.06185), een benchmark van 256 multi-turn dialoogscenario's met 1.024 taken die zijn afgeleid van authentieke patronen in gebruikersgedrag en zijn gebaseerd op ongeveer 1.600 publieke API's. Het kernargument is dat bestaande benchmarks verzadigd raken, niet omdat de modellen zo goed zijn, maar omdat de taken kunstmatig zijn. Echte gebruikers bundelen verzoeken, laten context weg die ze twee beurten geleden deelden, en wisselen af tussen het stellen van een toolvraag, koetjes en kalfjes, en het vragen om verduidelijking — soms binnen één enkel bericht. WildToolBench operationaliseert deze faalmodi in drie gestructureerde uitdagingscategorieën en meet zowel de nauwkeurigheid op taakniveau als de veel strengere sessienauwkeurigheid, die vereist dat alle vier de taken in een dialoog succesvol worden afgerond.
Kernpunten
- Sessienauwkeurigheid zakt voor de meeste modellen naar enkele cijfers: Gemini-2.0-Flash-Thinking loopt voorop met 14,45% sessienauwkeurigheid, gevolgd door Claude-4-Sonnet met 12,50% en GPT-4o met 11,72%. Het voltooien van alle taken in een sessie van vier beurten is zo moeilijk dat zelfs een taaknauwkeurigheid van 60% resulteert in minder dan 15% sessienauwkeurigheid — een belasting door samengestelde waarschijnlijkheid op elke interactie.
- Compositionele orkestratie is het steilste struikelblok: Gemengde sequentieel-plus-parallelle tool-topologieën beperken de topmodellen tot 25% taaknauwkeurigheid, tegenover 54-62% voor puur parallelle of sequentiële ketens. Wanneer een taak een parallelle uitwaaiering vereist, gevolgd door een sequentiële samenvoeging, overstijgt het coördinatieprobleem wat elk huidig model betrouwbaar aankan.
- Verborgen intentie is een grotere kloof dan ooit tevoren is gemeten: WildToolBench zorgt ervoor dat 100% van de taken impliciete informatie of informatie uit eerdere beurten bevat; BFCL v3 haalt slechts 15,7%. Taken met afhankelijkheden over lange afstand — waarbij de ontbrekende informatie meer dan twee beurten terugligt — zijn het moeilijkste subtype, waarbij geen enkel model de 50% haalt, zelfs niet op taakniveau.
- Instructie-overgangen stapelen fouten op met een lineaire snelheid: Elke extra beleidswissel (tool-taak → chat → verduidelijking → tool-taak) verlaagt de nauwkeurigheid met ruwweg 5 tot 15 procentpunten. Bij drie overgangen verliezen de zwaarst getroffen modellen 30 punten. De auteurs noemen dit "self-conditioning": eerdere antwoorden beïnvloeden de interpretatie van de daaropvolgende instructies door het model op manieren die halverwege de sessie moeilijk te corrigeren zijn.
- Optimal Path Rate blijft onder de 43%: Zelfs wanneer modellen taken correct voltooien, verbruiken ze overtollige API-aanroepen. Claude-4-Sonnet behaalt de beste Optimal Path Rate met 42,74%, wat betekent dat de meerderheid van de correcte voltooiingen meer stappen vereist dan nodig — een directe kostenpost in latentie en tokens voor elk productiesysteem.
- Gespecialiseerde modellen voor toolgebruik presteren minder goed dan algemene 'frontier'-modellen: xLAM-2-70B en ToolACE2-8B laten beide foutpercentages voor verkeerde functienamen zien van meer dan 30%, slechter dan GPT-4o of Claude-4-Sonnet. Fine-tuning op nauwe corpora voor toolgebruik lijkt eerder broosheid dan robuustheid te creëren bij een verschuiving in distributie naar ongetemd gebruikersgedrag.
Wat standhoudt — en wat niet
Het ontwerp van de benchmark is sterk op de punten die er het meest toe doen. Het onderscheid tussen taaknauwkeurigheid en sessienauwkeurigheid is exact juist: opstapelende faalmodi zijn wat echte implementaties de das omdoet, en het meeste eerdere werk rapporteert getallen op taakniveau die dit maskeren. De taxonomie van drie uitdagingen (compositionele orkestratie, verborgen intentie, instructie-overgangen) is goed onderbouwd en empirisch bewezen — de curves van prestatieverslechtering over de verschillende uitdagingstypen zijn reëel en opvallend.
Het zwakke punt is de schaal. 1.024 taken uit 256 scenario's is een geloofwaardig onderzoeksresultaat, maar mager voor een ranglijst die bedoeld is om 57 modellen in de loop van de tijd te volgen. De auteurs erkennen dit direct en maken melding van een geautomatiseerde schalingspipeline in toekomstig werk. Een ander punt is dat de bewering "gebaseerd op echte gebruikerslogs" veel gewicht moet dragen: de uiteindelijke taken zijn gedeeltelijk synthetisch, geconstrueerd door een multi-agent systeem op basis van bronpatronen en vervolgens geverifieerd door menselijke annotatoren. De claim is gefundeerd, maar de data is niet letterlijk "wild" — het is geïnspireerd op de praktijk. Dat is belangrijk voor hoe letterlijk je het plafond van 15% interpreteert; een deel van de kloof zou kunnen dichten als de generatiepipeline kunstmatige moeilijkheden introduceert die echte gebruikers in de praktijk niet vertonen.
Ik ben ook sceptisch over de analyse van instructie-overgangen als een architecturale claim. Het artikel schrijft dit toe aan een fundamentele beperking, maar de mismatch in trainingsdistributie tussen RLHF fine-tuning doelstellingen en multi-modale gebruikerssessies is de meer voor de hand liggende verklaring. Dat is oplosbaar, niet structureel.
Waarom dit belangrijk is voor financiële AI
De drie faalmodi sluiten bijna perfect aan op hoe echte gebruikers communiceren met een Beancount write-back agent. Een gebruiker vraagt: "hoeveel heb ik vorige maand aan boodschappen uitgegeven, en voeg trouwens ook het bonnetje van de Whole Foods van vandaag toe" — dat is een compositionele taak gebundeld in één beurt. Ze vervolgen met: "maak er eigenlijk €47,23 van in plaats van €42, ik heb het opgezocht" — dat is een parametercorrectie die vereist dat de agent de sessiestatus bijhoudt. Vervolgens vragen ze: "is die categorie wel juist?" — dat is een verzoek om verduidelijking, en de agent moet de schrijfbewerking die hij net heeft voltooid niet opnieuw uitvoeren. Het plafond van 25% op gemengde sequentieel-plus-parallelle orkestratie en de daling van 30 punten door instructie-overgangen zijn precies de faalmodi die zich zouden manifesteren in een grootboek-agent die echte gebruikerssessies afhandelt.
De bevinding dat gespecialiseerde modellen voor toolgebruik minder goed presteren dan algemene frontier-modellen is bijzonder relevant. Als we zouden overwegen om een kleiner open model te finetunen op specifieke Beancount tool-calling voorbeelden — de voor de hand liggende zet om kosten te besparen — dan is WildToolBench een directe waarschuwing dat specialisatie ten koste kan gaan van de robuustheid tegenover de distributie van werkelijk gebruikersgedrag. De bevinding over de Optimal Path Rate is ook van belang: een agent die twee keer zoveel API-aanroepen gebruikt om een taak te voltooien is niet alleen inefficiënt; bij write-back operaties kunnen overbodige tussenliggende aanroepen het grootboek in een inconsistente tussentijdse staat achterlaten.
Wat nu te lezen
- ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — het fundamentele trainingsframework waar WildToolBench zich expliciet tegen afzet; het begrijpen van het synthetische evaluatie-ontwerp verduidelijkt wat live uitvoering precies toevoegt.
- τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains (arXiv:2406.12045) — het meest relevante eerdere werk over realistisch multi-turn toolgebruik; het vergelijken van τ-bench's retail- en luchtvaartdomeinen met de publieke API-dekking van WildToolBench laat zien hoezeer de uitdaging te generaliseren is.
- AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — als het probleem van instructie-overgangen kan worden opgelost door automatisch betere agent-workflows te ontdekken in plaats van trainingsdata op te schalen, dan is AFlow het meest geloofwaardige mechanisme om dit te doen.
