Prejsť na hlavný obsah

WildToolBench: Prečo žiadne LLM neprekračuje 15 % presnosť relácie pri používaní nástrojov v reálnom svete

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Benchmarky na používanie nástrojov, ktoré som doteraz sledoval – BFCL, ToolBench, τ-bench – majú spoločnú konštrukčnú chybu: vytvárajú úlohy na základe predstáv autorov benchmarkov o tom, čo používatelia robia. WildToolBench, prijatý na ICLR 2026, sa vracia k reálnym logom používateľov a pýta sa, čo používatelia skutočne robia. Odpoveď je pokorujúca: z 57 vyhodnotených LLM ani jeden neprekročil 15 % presnosť relácie.

Odborná publikácia

2026-07-10-wildtoolbench-benchmarking-llm-tool-use-in-the-wild

Peijie Yu, Wei Liu, Yifan Yang a kolegovia z Alibaby predstavujú WildToolBench (arXiv:2604.06185), benchmark s 256 scenármi viackolových dialógov s 1 024 úlohami čerpanými z autentických vzorcov správania používateľov a založenými na približne 1 600 verejných API. Hlavným argumentom je, že existujúce benchmarky sa nasýtia nie preto, že by modely boli dobré, ale preto, že úlohy sú umelé. Reálni používatelia spájajú požiadavky dokopy, vynechávajú kontext, ktorý zdieľali pred dvoma kolami, a prepínajú medzi kladením otázok o nástroji, bežnou konverzáciou a žiadosťou o vysvetlenie – niekedy v rámci jednej správy. WildToolBench operacionalizuje tieto režimy zlyhania do troch štruktúrovaných kategórií výziev a meria presnosť na úrovni úloh aj oveľa prísnejšiu presnosť na úrovni relácie, ktorá si vyžaduje úspech vo všetkých štyroch úlohách v dialógu.

Kľúčové myšlienky

  • Presnosť relácie klesá u väčšiny modelov na jednociferné čísla: Gemini-2.0-Flash-Thinking vedie so 14,45 % presnosťou relácie, Claude-4-Sonnet má 12,50 %, GPT-4o 11,72 %. Úspešné zvládnutie všetkých úloh v štvorstupňovej relácii je také náročné, že aj 60 % presnosť na úrovni úloh sa prejaví v menej ako 15 % presnosti relácie – čo je daň za kombinovanú pravdepodobnosť pri každej interakcii.
  • Kompozičná orchestrácia je najstrmším útesom: Zmiešané sekvenčné a paralelné topológie nástrojov obmedzujú najlepšie modely na 25 % presnosť úloh v porovnaní s 54 – 62 % pri čisto paralelných alebo sekvenčných reťazcoch. Keď úloha vyžaduje paralelné rozvetvenie (fan-out) nasledované sekvenčným zlúčením (merge), problém koordinácie prevyšuje to, čo súčasné modely dokážu spoľahlivo zvládnuť.
  • Skrytý zámer je väčšou medzerou, než sa doteraz meralo: WildToolBench zabezpečuje, že 100 % úloh zahŕňa implicitné informácie alebo informácie z viacerých kôl; BFCL v3 to zvláda len na 15,7 %. Úlohy s dlhodobou závislosťou – kde chýbajúca informácia pochádza spred viac ako dvoch kôl – sú najťažším podtypom, pričom žiadny model neprekoná 50 % ani na úrovni úloh.
  • Prechody v inštrukciách znásobujú chyby lineárnym tempom: Každé ďalšie prepnutie politiky (úloha s nástrojom → čet → vysvetlenie → úloha s nástrojom) znižuje presnosť približne o 5 – 15 percentuálnych bodov. Pri troch prechodoch strácajú najviac zasiahnuté modely 30 bodov. Autori to nazývajú „vlastné podmieňovanie“ (self-conditioning): predchádzajúce odpovede ovplyvňujú interpretáciu následných inštrukcií modelom spôsobom, ktorý je ťažké opraviť uprostred relácie.
  • Miera optimálnej cesty (Optimal Path Rate) zostáva pod 43 %: Aj keď modely dokončia úlohy správne, spotrebujú nadbytočné volania API. Claude-4-Sonnet dosahuje najlepšiu mieru optimálnej cesty 42,74 %, čo znamená, že väčšina správnych dokončení vyžaduje viac krokov, než je potrebné – čo predstavuje priame náklady na latenciu a tokeny pre akýkoľvek produkčný systém.
  • Špecializované modely na používanie nástrojov zaostávajú za všeobecnými špičkovými modelmi: xLAM-2-70B aj ToolACE2-8B vykazujú mieru chýb v názvoch funkcií vyššiu ako 30 %, čo je horšie ako GPT-4o alebo Claude-4-Sonnet. Zdá sa, že jemné doladenie na úzkych korpusoch používania nástrojov vytvára skôr krehkosť než robustnosť pri prechode na distribúciu reálneho správania používateľov.

Čo obstojí – a čo nie

Dizajn benchmarku je silný tam, kde na tom najviac záleží. Rozlíšenie medzi presnosťou úloh a presnosťou relácie je presne správne: hromadenie režimov zlyhania je to, čo zabíja reálne nasadenia, a väčšina predchádzajúcich prác uvádza čísla na úrovni úloh, ktoré to maskujú. Taxonómia troch výziev (kompozičná orchestrácia, skrytý zámer, prechody v inštrukciách) je dobre zdôvodnená a empiricky doložená – krivky degradácie výkonu naprieč typmi výziev sú reálne a markantné.

Slabým miestom je rozsah. 1 024 úloh z 256 scenárov je dôveryhodný výskumný artefakt, ale málo pre rebríček, ktorý má v priebehu času sledovať 57 modelov. Autori to priamo priznávajú a spomínajú automatizovanú škálovaciu líniu v budúcej práci. Ďalším problémom je, že tvrdenie „založené na reálnych logoch používateľov“ nesie veľkú váhu: výsledné úlohy sú čiastočne syntetické, zostavené multi-agentovým systémom z počiatočných vzorov a následne overené ľudskými anotátormi. Tvrdenie je podložené, ale dáta nie sú doslovne „divoké“ (wild) – sú divokým správaním inšpirované. To je dôležité pre to, ako doslovne interpretovať 15 % strop; časť medzery by sa mohla uzavrieť, ak proces generovania vnáša umelú náročnosť, ktorú reálni používatelia v skutočnosti nevykazujú.

Som tiež skeptický voči analýze prechodov v inštrukciách ako architektonickému tvrdeniu. Práca to pripisuje fundamentálnemu obmedzeniu, ale nesúlad v distribúcii tréningových dát medzi cieľmi jemného doladenia RLHF a multimodálnymi reláciami používateľov je úspornejším vysvetlením. To je riešiteľné, nie štrukturálne.

Prečo je to dôležité pre AI vo financiách

Tieto tri režimy zlyhania takmer dokonale zodpovedajú tomu, ako reálni používatelia interagujú s agentom na zápis do Beancountu. Používateľ sa spýta: „Koľko som minul na potraviny minulý mesiac a rovno tam pridaj dnešný blok z Whole Foods“ – to je kompozičná úloha spojená do jedného kola. Nasleduje: „Vlastne to zmeň na 47,23 USD, nie 42, pozrel som si to“ – to je oprava parametra vyžadujúca, aby agent sledoval stav relácie. Potom sa opýtajú: „Je tá kategória správna?“ – to je žiadosť o vysvetlenie a agent nesmie znova vykonať operáciu zápisu, ktorú práve dokončil. 25 % strop na zmiešanú sekvenčnú a paralelnú orchestráciu a 30-bodový pokles pri prechodoch v inštrukciách sú presne tie režimy zlyhania, ktoré by sa prejavili u agenta spravujúceho účtovnú knihu pri vybavovaní reálnych relácií používateľov.

Zistenie, že špecializované modely na používanie nástrojov zaostávajú za všeobecnými špičkovými modelmi, je obzvlášť relevantné. Ak by sme uvažovali o jemnom doladení menšieho otvoreného modelu na príkladoch volania nástrojov špecifických pre Beancount – čo je logický krok na zníženie nákladov – WildToolBench je priamym varovaním, že špecializácia môže obetovať robustnosť voči distribúcii skutočného správania používateľov. Dôležité je aj zistenie o miere optimálnej cesty: agent, ktorý na dokončenie úlohy spotrebuje dvakrát viac volaní API, je nielen neefektívny; pri operáciách spätného zápisu môžu nadbytočné medzikroky zanechať účtovnú knihu v nekonzistentných medzistavoch.

Čo si prečítať ďalej

  • ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) – základný tréningový rámec, voči ktorému sa WildToolBench explicitne vymedzuje; pochopenie jeho dizajnu syntetického vyhodnocovania objasňuje, čo presne prináša živé vykonávanie úloh.
  • τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains (arXiv:2406.12045) – najbližšia predchádzajúca práca o realistickom viackolovom používaní nástrojov; porovnanie domén maloobchodu/leteckej dopravy v τ-bench s pokrytím verejných API vo WildToolBench ukazuje, nakoľko je táto výzva všeobecná.
  • AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) – ak je problém prechodov v inštrukciách riešiteľný automatickým objavovaním lepších pracovných postupov agentov namiesto škálovania tréningových dát, AFlow je najdôveryhodnejším mechanizmom, ako to dosiahnuť.