AgentBench: Hodnotenie LLM ako agentov — Ponaučenia pre spoľahlivosť finančnej AI
Keď si kladiem otázku, čo vlastne musí write-back agent pre Beancount robiť spoľahlivo, odpoveďou nie je „generovať text“ — je to „vykonať sekvenciu akcií v štruktúrovanom prostredí bez toho, aby zišiel z cesty.“ AgentBench (Liu et al., Tsinghua, ICLR 2024) je jedným z prvých vážnych pokusov o meranie tejto schopnosti vo veľkom meradle a čísla z prehľadu z roku 2023 stále obsahujú ponaučenia, ktoré stoja za vytiahnutie.
Práca
AgentBench od Xiao Liu a 21 spoluautorov z univerzity Tsinghua definuje osem prostredí navrhnutých na stresové testovanie LLM ako interaktívnych agentov, a nie ako pasívnych generátorov textu. Päť prostredí je pôvodných: OS (interakcia v bashi), Databáza (generovanie SQL a zotavenie po chybe), Vedomostný graf (štruktúrované dopyty založené na nástrojoch), Digitálna kartová hra (viackolová strategická súťaž) a Hádanky laterálneho myslenia (deduktívny dialóg). Tri sú prevzaté z predchádzajúcich datasetov: House-Holding z ALFWorld, Web Shopping z WebShop a Web Browsing z Mind2Web. Práca hodnotí 27 modelov — komerčné API modely aj open-source modely až do veľkosti 70B — v približne 4 000 generáciách pre vývojovú sadu (dev-split) a 13 000 pre testovaciu sadu (test-split) a uvádza mieru úspešnosti pre jednotlivé prostredia aj zložené celkové skóre.
Kľúčové myšlienky
- GPT-4 vedie s celkovým skóre 4,01. Claude-2 dosiahol 2,49, GPT-3.5-turbo 2,32. CodeLlama-34B, najsilnejší open-source model v čase odovzdania, dosiahol iba 0,96. Modely založené na API majú celkový priemer 2,24 oproti 0,42 pri open-source modeloch.
- GPT-4 dosiahol 42,4 % v OS, 32,0 % v Databáze a 78,0 % v House-Holding — tento rozptyl odhaľuje, ktoré prostredia odmeňujú dodržiavanie inštrukcií oproti štruktúrovanému uvažovaniu.
- „Prekročenie limitu úloh“ (Task Limit Exceeded) je dominantným chybovým režimom: 67,9 % zlyhaní vo Vedomostnom grafe narazilo na rozpočet krokov pred vyriešením úlohy. Ide o zlyhanie uvažovania v dlhom horizonte, nie o zlyhanie vedomostí.
- Chyby v dodržiavaní formátu tvoria 53,3 % zlyhaní úloh v Databáze — agent produkuje syntakticky nesprávne SQL alebo obaľuje dopyty do textu, ktorý hodnotiteľ nedokáže spracovať.
- Výber neplatnej akcie spôsobuje 64,1 % zlyhaní v House-Holding — agent pomenuje akciu, ktorá v aktuálnom stave nie je k dispozícii.
- Trénovanie na kóde má „ambivalentné dopady naprieč úlohami“: pomáha v prostrediach zameraných na dodržiavanie postupov, ale môže uškodiť všeobecnému uvažovaniu v prostrediach s prevahou dialógov.
Čo pretrváva — a čo nie
Základná voľba dizajnu — interaktívne hodnotenie vo viacerých prostrediach a viacerých kolách — je správna a stále sa využíva málo. Väčšina benchmarkov LLM stále meria kvalitu generovania v jednom kole; AgentBench správne trvá na tom, že agenti musia pokračovať v rozhodovaní, kým sa úloha nedokončí alebo sa nevyčerpá rozpočet.
Napriek tomu je tento prehľad zastaraný spôsobom, na ktorom záleží. Rozdiel medzi GPT-4 (4,01) a najlepším open-source modelom (0,96) vyzeral v polovici roka 2023 alarmujúco, ale do roku 2025 sa do veľkej miery uzavrel. Modely ako Llama 3.1 70B alebo Qwen 2.5 72B teraz prekonávajú latky v dodržiavaní inštrukcií a formátu, ktoré boli pred dvoma rokmi novými prekážkami. Čítať túto prácu ako dôkaz, že „open-source nezvláda agentické úlohy“, by bolo chybou; čítať ju ako dôkaz, že „dodržiavanie formátu a konzistencia v dlhom horizonte sú tými ťažkými problémami“, stále platí.
Existuje tu aj napätie medzi šírkou a hĺbkou. Osem prostredí znie komplexne, ale každé z nich je relatívne plytké. WebArena (Zhou et al., 2024) pokrýva samotné prehliadanie webu s 812 šablónovými úlohami v dlhom horizonte; OSWorld (Xie et al., 2024) benchmarkuje 369 reálnych desktopových úloh v Ubuntu a Windowse. AgentBench vám môže poskytnúť signál naprieč prostrediami, ale nenahradí doménovo špecifický benchmark, keď už identifikujete prostredie, na ktorom vám záleží.
Taxonómia chybových režimov v tabuľke 4 je pravdepodobne najtrvácnejším prínosom. Autori rozkladajú zlyhania na Prekročenie limitu úloh, Chybu formátu, Neplatnú akciu a niekoľko ďalších. Nejde o implementačné chyby — sú to štrukturálne slabiny v tom, ako LLM udržiavajú stav, sledujú dostupné akcie a produkujú spracovateľný výstup pod tlakom viacerých kôl. Akýkoľvek seriózny agentový systém ich musí riešiť.
Prečo je to dôležité pre finančnú AI
Tri dominantné chybové režimy mapujú takmer priamo to, čo by som očakával, že znefunkční write-back agenta pre Beancount.
Prekročenie limitu úloh je chybový režim pri odsúhlasovaní (reconciliácii) účtovnej knihy. Odsúhlasenie uzávierky obdobia pre viacero účtov vyžaduje kontrolu počiatočných zostatkov, párovanie debetov a kreditov, identifikáciu nezrovnalostí a navrhovanie opráv — reťazec, ktorý môže pokojne trvať 10 – 20 krokov. Agent, ktorý uprostred reťazca narazí na svoj kontextový rozpočet alebo rozpočet krokov a vzdá sa, nezlyhá len s gráciou; môže nechať účtovnú knihu v čiastočne upravenom stave.
Chyba formátu je chybový režim pri zadávaní transakcií. Beancount má prísnu syntax: nesprávne naformátovaný zápis (chýbajúca mena, zlé odsadenie, neplatný príznak) je chyba spracovania (parse error), ktorá poškodí súbor. Agent, ktorý generuje text okolo svojho výstupu pre Beancount alebo produkuje zdanlivo správnu syntax v nesprávnom formáte, je nepoužiteľný. Toto je základný problém práce CRITIC aplikovaný na prísnejšiu doménu.
Neplatná akcia je problém bezpečnosti pri zápise späť (write-back). Agent Beancount pracujúci na reálnej účtovnej knihe má obmedzený súbor bezpečných operácií: pridať transakciu, opraviť príznak, presunúť zápis. Halucinovanie akcie mimo tohto súboru — napríklad zmazanie účtu, ktorý má stále otvorené pozície — je zlyhanie správnosti, ktoré nemusí byť odhalené až do auditu.
Zistenie, že „trénovanie na kóde má ambivalentné dopady“, je tiež relevantné. Write-back v Beancount má bližšie k generovaniu kódu než k vyhľadávaniu vedomostí, takže model predtrénovaný na kóde by mal byť prirodzenou voľbou. Ak však trénovanie na kóde znižuje schopnosť sledovať dialóg v prostredí s viacerými kolami, je potrebné hybridné hodnotenie (ako v prípade AgentBench), aby sa tieto kompromisy ukázali ešte pred nasadením.
Čo si prečítať ďalej
- WebArena (Zhou et al., 2024; arXiv:2307.13854) — 812 úloh prehliadania webu v živom prostredí prehliadača; hĺbkové pokračovanie úrovne AgentBench zameranej na web
- OSWorld (Xie et al., 2024; NeurIPS 2024) — benchmark kompletného desktopového prostredia vrátane úloh súborového systému a GUI; prostredie OS v OSWorld je priamym a hlbším nástupcom úrovne OS v AgentBench
- TAU-bench (Yao et al., 2024) — hodnotí agentov v prostrediach API pre maloobchod a letecké spoločnosti so skutočným používaním nástrojov a simuláciou používateľov; najbližší publikovaný benchmark k nastaveniu Beancountu ako prostredia (ledger-as-environment)
