Salta al contingut principal

WildToolBench: Per què cap LLM supera el 15% de precisió de sessió en l'ús d'eines en el món real

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

Els bancs de proves d'ús d'eines que he estat seguint — BFCL, ToolBench, τ-bench — comparteixen un defecte de disseny comú: construeixen tasques a partir de la imaginació dels autors del banc de proves sobre el que fan els usuaris. WildToolBench, acceptat a l'ICLR 2026, recorre als registres d'usuaris reals i pregunta què fan realment els usuaris. La resposta és alliçonadora: 57 LLM avaluats, cap supera el 15% de precisió de sessió.

L'article

2026-07-10-wildtoolbench-benchmarking-llm-tool-use-in-the-wild

Peijie Yu, Wei Liu, Yifan Yang i els seus col·legues d'Alibaba presenten WildToolBench (arXiv:2604.06185), un banc de proves de 256 escenaris de diàleg multi-torn amb 1.024 tasques extretes de patrons de comportament d'usuaris autèntics i basades en unes 1.600 API públiques. L'argument central és que els bancs de proves existents s'estan saturant no perquè els models siguin bons, sinó perquè les tasques són artificials. Els usuaris reals agrupen peticions, ometen el context que van compartir fa dos torns i alternen entre fer una pregunta sobre una eina, xerrar una mica i demanar un aclariment — de vegades dins d'un mateix missatge. WildToolBench operacionalitza aquests modes de fallada en tres categories de reptes estructurades i mesura tant la precisió a nivell de tasca com la precisió a nivell de sessió, molt més estricta, que requereix tenir èxit en les quatre tasques d'un diàleg.

Idees clau

  • La precisió de sessió es col·lapsa fins a un sol dígit per a la majoria de models: Gemini-2.0-Flash-Thinking lidera amb un 14,45% de precisió de sessió, Claude-4-Sonnet amb un 12,50%, GPT-4o amb un 11,72%. Superar totes les tasques en una sessió de quatre torns és prou difícil perquè fins i tot una precisió de tasca del 60% es tradueixi en menys del 15% de precisió de sessió — un impost de probabilitat composta en cada interacció.
  • L'orquestració compositiva és el precipici més pronunciat: Les topologies d'eines mixtes seqüencials i paral·leles limiten els millors models al 25% de precisió de tasca, enfront del 54–62% per a cadenes purament paral·leles o seqüencials. Quan una tasca requereix un desplegament paral·lel seguit d'una fusió seqüencial, el problema de coordinació supera el que qualsevol model actual gestiona de manera fiable.
  • La intenció oculta és una bretxa més gran del que ningú havia mesurat abans: WildToolBench garanteix que el 100% de les tasques impliquen informació implícita o entre torns; el BFCL v3 només en gestiona el 15,7%. Les tasques de dependència de llarg abast —on la informació que falta es troba a més de dos torns enrere— són el subtipus més difícil, sense que cap model superi el 50% ni tan sols a nivell de tasca.
  • Les transicions d'instruccions acumulen errors a un ritme lineal: Cada canvi de política addicional (tasca d'eina → xat → aclariment → tasca d'eina) redueix la precisió en aproximadament 5-15 punts percentuals. Amb tres transicions, els models més afectats perden 30 punts. Els autors anomenen això "autocondicionament": les respostes prèvies esbiaixen la interpretació del model de les instruccions posteriors de maneres difícils de corregir a meitat de la sessió.
  • La Taxa de Camí Òptim es manté per sota del 43%: Fins i tot quan els models completen les tasques correctament, consumeixen crides d'API en excés. Claude-4-Sonnet aconsegueix la millor Taxa de Camí Òptim amb un 42,74%, el que significa que la majoria de les finalitzacions correctes requereixen més passos dels necessaris — un cost directe en latència i tokens per a qualsevol sistema de producció.
  • Els models especialitzats en l'ús d'eines tenen un rendiment inferior als models fronterers generals: xLAM-2-70B i ToolACE2-8B presenten taxes d'error de nom de funció incorrecte superiors al 30%, pitjor que GPT-4o o Claude-4-Sonnet. L'ajustament fi en corpus d'ús d'eines reduïts sembla crear fragilitat en lloc de robustesa davant el canvi de distribució cap al comportament real dels usuaris.

Què s'aguanta i què no

El disseny del banc de proves és sòlid on més importa. La distinció entre precisió de tasca i precisió de sessió és exactament correcta: l'acumulació de modes de fallada és el que mata els desplegaments reals, i la majoria dels treballs anteriors informen de xifres a nivell de tasca que emmascaren això. La taxonomia de tres reptes (orquestració compositiva, intenció oculta, transicions d'instruccions) està ben motivada i fonamentada empíricament — les corbes de degradació del rendiment en els diferents tipus de reptes són reals i sorprenents.

El punt feble és l'escala. 1.024 tasques de 256 escenaris és un artefacte de recerca creïble, però escàs per a una taula de classificació destinada a fer el seguiment de 57 models al llarg del temps. Els autors ho reconeixen directament i esmenten un pipeline d'escalat automatitzat en treballs futurs. L'altre problema és que "basat en registres d'usuaris reals" comporta molta feina: les tasques finals són parcialment sintètiques, construïdes per un sistema multi-agent a partir de patrons llavor i després verificades per anotadors humans. L'afirmació està fonamentada, però les dades no són textualment salvatges: estan inspirades en el món real. Això és important per a la literalitat amb què s'interpreta el sostre del 15%; una fracció de la bretxa podria tancar-se si el pipeline de generació introdueix una dificultat artificial que els usuaris reals no mostren realment.

També sóc escèptic respecte a l'anàlisi de la transició d'instruccions com una afirmació arquitectònica. L'article ho atribueix a una limitació fonamental, però el desajust de la distribució d'entrenament entre els objectius d'ajustament fi per RLHF i les sessions d'usuari multimodals és l'explicació més senzilla. Això és abordable, no estructural.

Per què això és important per a la IA financera

Els tres modes de fallada s'ajusten gairebé perfectament a com els usuaris reals interactuen amb un agent d'escriptura de Beancount. Un usuari pregunta "quant vaig gastar en queviures el mes passat, i ja que hi ets, afegeix el tiquet d'avui de Whole Foods" — aquesta és una tasca compositiva agrupada en un sol torn. Després continua amb "en realitat posa 47,23 € i no 42 €, ho he buscat" — aquesta és una correcció de paràmetres que requereix que l'agent faci un seguiment de l'estat de la sessió. Després pregunten "és correcta aquesta categoria?" — aquesta és una sol·licitud d'aclariment, i l'agent ha de no tornar a executar l'operació d'escriptura que acaba de finalitzar. El límit del 25% en l'orquestració mixta seqüencial i paral·lela i la caiguda de 30 punts per les transicions d'instruccions són exactament els modes de fallada que es manifestarien en un agent de llibre major que gestionés sessions d'usuaris reals.

La troballa que els models especialitzats en l'ús d'eines tenen un rendiment inferior als models fronterers generals és particularment rellevant. Si estiguéssim considerant l'ajustament fi d'un model obert més petit en exemples de crides d'eines específics de Beancount —la jugada òbvia per reduir costos—, WildToolBench és un advertiment directe que l'especialització pot sacrificar la robustesa davant la distribució del comportament real dels usuaris. La troballa de la Taxa de Camí Òptim també importa: un agent que utilitza el doble de crides d'API per completar una tasca no és només ineficient; per a les operacions d'escriptura, les crides intermèdies redundants poden deixar el llibre major en estats intermedis inconsistents.

Què llegir a continuació

  • ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — el marc d'entrenament fonamental contra el qual WildToolBench es posiciona explícitament; entendre el seu disseny d'avaluació sintètica aclareix exactament què aporta l'execució en viu.
  • τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains (arXiv:2406.12045) — el treball anterior més proper sobre l'ús d'eines multi-torn realista; comparar els dominis de comerç al detall/línies aèries de τ-bench amb la cobertura d'API públiques de WildToolBench mostra fins a quin punt es generalitza el repte.
  • AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — si el problema de la transició d'instruccions es pot abordar mitjançant el descobriment automàtic de millors fluxos de treball d'agents en lloc d'escalar les dades d'entrenament, AFlow és el mecanisme més creïble per fer-ho.