τ²-bench: De kosten meten van dual-control in conversationele AI-agents
Ik heb de afgelopen weken de τ-bench-reeks doorgenomen en τ²-bench (arXiv:2506.07982) is het artikel waar ik op zat te wachten: het stelt eindelijk de vraag wat er gebeurt als de gebruiker geen passieve informatieverstrekker is, maar een actieve deelnemer met een eigen set tools. Voor iedereen die een conversationele boekhoudagent bouwt, is die kloof altijd opvallend geweest.
Het artikel
Victor Barres, Honghua Dong, Soham Ray, Xujie Si en Karthik Narasimhan (Sierra AI en University of Toronto) introduceren τ²-bench als een directe uitbreiding van de oorspronkelijke τ-bench. De kernobservatie is dat eerdere benchmarks voor conversationele AI-agents single-control zijn: alleen de agent kan tools aanroepen; de gebruiker is beperkt tot berichten in natuurlijke taal. Technische ondersteuning in de echte wereld doorbreekt deze aanname. Wanneer een klantenservicemedewerker u vertelt de "vliegtuigmodus uit te schakelen", voert u een tool-aanroep uit op uw eigen apparaat, in plaats van alleen uw voorkeuren te vertellen.
De auteurs modelleren dit als een Decentralized Partially Observable Markov Decision Process (Dec-POMDP), waarbij zowel de agent als de gebruikerssimulator verschillende actieruimtes hebben (functie-aanroepen en berichten) over een gedeelde, dynamische wereldstatus. De kant van de agent ziet eruit als een standaard CRM: het kan klantgegevens opzoeken, roaming inschakelen of een simkaart vervangen. De gebruikerskant is een gesimuleerde telefoon met lees-tools (get_status_bar, get_sim_status) en schrijf-tools (toggle_airplane_mode, toggle_data, reseat_sim_card). De benchmark wordt geleverd met een nieuw telecom-domein (114 taken uit 2.285 programmatisch gegenereerde varianten) naast de geverifieerde retail- (115 taken) en luchtvaart-domeinen (50 taken) van de oorspronkelijke τ-bench.
Belangrijkste ideeën
- Dual-control formalisme: De Dec-POMDP-representatie scheidt duidelijk wat elke speler waarneemt en welke tools elk kan aanroepen. Dit is rigoureuzer dan de ad-hoc "gebruiker met een telefoon" die je misschien aan een bestaande single-agent omgeving zou koppelen.
- Compositionele taakgenerator: Taken worden samengesteld uit 15 atomaire subtaakgroepen die drie soorten intenties dekken (
service_issue,mobile_data_issue,mms_issue) met expliciete moeilijkheidsschaling op basis van het aantal vereiste oplossingsstappen. - Prestaties op telecom (pass¹): GPT-4.1 behaalt slechts 34%; o4-mini 42%; Claude 3.7 Sonnet 49%; GPT-4.1-mini ongeveer 50%. Alle modellen scoren hier aanzienlijk lager dan op retail of luchtvaart.
- Dual-control penalty: Een ablatie vergelijkt de Default-modus (gebruiker heeft tools) met de No-User-modus (agent bestuurt elke tool zelf). GPT-4.1 daalt met 18 procentpunten; o4-mini daalt met 25 punten. Dit gat is de prijs voor coördinatie met een actieve gebruiker, losgekoppeld van pure redeneermoeilijkheid.
- Oracle-plan-kloof: Zelfs wanneer de agent vooraf de volledige actievolgorde krijgt, bereikt de prestatie geen 100%, wat ons vertelt dat uitvoering en gebruikerscoördinatie fouten toevoegen bovenop de planning.
- Gestructureerde gebruikerstools verminderen simulator-ruis drastisch: De telecom-gebruikerssimulator produceert slechts 16% fouten (6% kritiek), vergeleken met 40% fouten (12% kritiek) voor retail in de oorspronkelijke τ-bench. De verbetering komt door het vervangen van losse gebruikersprompts in natuurlijke taal door een strak begrensde tool-interface die de apparaatstatus bijhoudt.
Wat houdt stand — en wat niet
De Dec-POMDP-formulering is een van de zorgvuldigste probleemformuleringen die ik heb gezien in agent-benchmarking. De programmatische taakgenerator is oprecht nuttig: het levert aantoonbaar correcte taken en expliciet beheersbare complexiteit, in tegenstelling tot de handmatige taakverzamelingen die de meeste benchmarks teisteren. De betrouwbaarheidscijfers van de gebruikerssimulator zijn overtuigend — het terugdringen van kritieke fouten van 12% naar 6% maakt veel uit wanneer je wilt kunnen vertrouwen op je evaluatiesignaal.
Dat gezegd hebbende, is het telecom-domein beperkt. Vier klanten, negen lijnen, vijf abonnementen: dit is een gecontroleerd laboratorium, geen bedrijfssysteem. De pass¹-cijfers voor gpt-4.1-mini en Claude 3.7 Sonnet (~50%) lijken verrassend hoog gezien de moeilijkheid die de auteurs aan het domein toeschrijven, wat mij doet afvragen of 114 taken voldoende zijn om te voorkomen dat toevalstreffers de scores opdrijven. De auteurs erkennen dat hun takenset een steekproef is. Ik vind de analyse van gebruikerspersona's ook mager: het artikel laat zien dat de "Hard"-persona (64-jarige gepensioneerde met weinig technisch vertrouwen) moeilijker is dan de "Easy"-persona, wat niet verrassend is. Wat ik zou willen zien, is of het type coördinatiefout verschilt — produceert een moeilijkere persona meer redeneerfouten of meer communicatiefouten?
Het artikel onderzoekt ook niet wat er gebeurt als het beleidsdocument van de agent onjuist of onvolledig is, wat een realistisch scenario is voor productieomgevingen. Elk resultaat gaat ervan uit dat de agent nauwkeurige beleidsregels krijgt.
Waarom dit belangrijk is voor finance AI
De single-control aanname in τ-bench, WorkArena en de meeste taakgeoriënteerde dialoog-benchmarks sluit slecht aan op het werkelijke Beancount-ondersteuningsscenario. Een gebruiker die een Beancount-agent vraagt om zijn grootboek te repareren, vertelt niet alleen een probleem — hij kan tegelijkertijd het bestand bewerken in zijn teksteditor, bean-check uitvoeren of een nieuwe CSV-export van zijn bank uploaden. Dat is een dual-control omgeving in precies de zin van τ²-bench.
De daling van 18–25 procentpunten bij de overgang van de No-User- naar de Default-modus is het getal waar ik op blijf terugkomen. Het suggereert dat zelfs als we een Beancount-agent zouden bouwen die nagenoeg perfect is in autonome grootboekmanipulatie, de introductie van een actieve gebruiker die schrijftoegang deelt, de slagingspercentages met ongeveer een kwart zou verlagen. De veilige write-back ontwerpen die we hebben overwogen (GuardAgent, ShieldAgent, verifieerbare MCP) zijn ontworpen voor single-control omgevingen; ze moeten worden heroverwogen als de gebruiker ook een tool-aanroepende agent is binnen dezelfde omgeving.
De verbetering van de betrouwbaarheid van de gebruikerssimulator is ook direct toepasbaar. Als ik offline evaluaties van een Beancount-agent wil uitvoeren zonder menselijke accountants te werven, is het strak koppelen van de gesimuleerde gebruiker aan een deterministische grootboekomgeving — in plaats van te vertrouwen op vrije LLM-rollenspellen — de juiste technische keuze.
Wat nu te lezen
- τ-bench (Yao et al., arXiv:2406.12045): De basis die hierop wordt uitgebreid — het is de moeite waard om de oorspronkelijke taakconstructie en het pass^k metriekontwerp te lezen voordat je de resultaten van τ²-bench interpreteert.
- ToolSandbox (Lu et al., arXiv:2408.04682): Introduceert stateful tools voor gedetailleerde agent-evaluatie; de meest relevante architectuur voor het ontwerpen van een dual-control Beancount-testharnas.
- TheAgentCompany (Xu et al., arXiv:2412.14161): 175 taken binnen een gesimuleerd softwarebedrijf met echte interne tools; de meest realistische benchmark voor bedrijfsautomatisering die momenteel beschikbaar is en het volgende artikel op mijn leeslijst.
