TheAgentCompany: Benchmarking agentov LLM na podnikových úlohách z reálneho sveta
TheAgentCompany je najrealistickejší podnikový benchmark pre agentov, o akom som doteraz v tejto sérii čítal. Pochádza od skupiny Grahama Neubiga z CMU a bol predložený na NeurIPS 2024, motivovaný jasnou medzerou: existujúce benchmarky testujú izolovanú navigáciu na webe alebo riešenie problémov na GitHub-e, ale skutočné pracovné úlohy vyžadujú, aby agenti prehliadali interné platformy, písali kolegom, písali kód a spúšťali programy v rámci jednej úlohy. Čítam ho teraz, pretože ide o najbližší kontrolovaný experiment, ktorý máme k dispozícii na zistenie, či agenti LLM môžu skutočne fungovať ako digitálni spolupracovníci v dôležitom prostredí.
Štúdia
Xu et al. vytvorili sebestačnú simulovanú spoločnosť: lokálne pracovisko plus intranet s reálnymi inštanciami GitLab, OwnCloud, Plane (projektový manažment) a RocketChat (tímová komunikácia). Prostredie zahŕňa aj simulovaných kolegov — NPC postavy poháňané modelmi LLM — takže agenti môžu posielať správy a prijímať pokyny počas plnenia úlohy. Úlohy pokrývajú sedem kategórií rolí: softvérové inžinierstvo (SDE), projektový manažment, HR, dátová veda, financie, administratíva a všeobecná kategória "iné". Celkovo ide o 175 úloh, ktoré vybralo 20 študentov informatiky a softvérových inžinierov počas približne 3 000 človekohodín v priebehu dvoch mesiacov.
Hodnotenie využíva systém checkpointov: každá úloha má priebežné míľniky v hodnote zlomku celkového skóre plus bonus za úplné dokončenie. Hodnotitelia sú buď deterministickí (kontrola obsahu súborov, výstupov kódu, stavu prostredia) alebo založení na LLM (hodnotenie voľného textu). Všetky modely bežia pod frameworkom pre agentov OpenHands, ktorý poskytuje vykonávanie kódu, prehliadanie webu a prístup k terminálu z jedného konfigurovateľného rozhrania.
Kľúčové myšlienky
- Gemini-2.5-Pro vedie s 30,3 % úplným dokončením a 39,3 % čiastkovým skóre; nasleduje Claude-3.7-Sonnet s 26,3 % / 36,4 %; GPT-4o dosahuje iba 8,6 % / 16,7 %; Llama-3.1-405B zvláda 7,4 %.
- Najlepší model priemerne potrebuje približne 27 krokov agenta a stojí viac ako 4 USD na úlohu — dokonca aj pri úlohách, ktoré autori popisujú ako jednoduchšie než reálna podniková zložitosť.
- Finančné úlohy patria medzi najťažšie kategórie spolu s administratívou a dátovou vedou; SDE úlohy sú spoľahlivo najjednoduchšie napriek tomu, že vyžadujú špecializovanejšie technické znalosti.
- Dominujú tri typy zlyhaní: navigácia v komplexných webových rozhraniach (najmä kancelársky balík OwnCloud), neschopnosť produktívne využívať správy od kolegov („nedostatok sociálnych zručností“) a vzdanie sa administratívnych úloh s viacerými dokumentmi, ktoré vyžadujú zdĺhavé krížové porovnávanie.
- Autori pripisujú výhodu SDE priamo skresleniu v tréningových dátach: predtrénovanie LLM je silne orientované na kód a dáta z GitHub-u kvôli prominentným benchmarkom a hojnému verejnému tréningovému signálu, takže modely generalizujú oveľa lepšie na softvérové úlohy než na HR alebo finančné postupy.
Čo obstojí — a čo nie
Dizajn prostredia je skutočne pôsobivý. Spustenie reálnych systémov GitLab, OwnCloud a RocketChat namiesto simulovaných makiet znamená, že agenti čelia autentickej zložitosti UI — skutočným vyskakovacím oknám, procesom overovania a okrajovým prípadom. Čiastkové skóre založené na checkpointoch je tiež správnym krokom: binárny úspech/zlyhanie by spôsobil, že väčšina úloh by vyzerala rovnako beznádejne, čím by sa zakrylo, kde agenti v skutočnosti robia pokrok.
Napriek tomu stojí za zmienku niekoľko slabín. Najkritickejšie je, že chýba referenčná hodnota ľudského výkonu. Autori to priznávajú — obmedzené zdroje znemožnili zhromaždiť údaje o čase alebo úspešnosti ľudí — čo znamená, že nemáme s čím porovnávať. 30 % dokončenie agentom znie zle, ale bez vedomia, či by človek strávil nad rovnakou úlohou 20 minút alebo 3 hodiny, alebo či sú niektoré úlohy skutočne nejednoznačné, je ťažké toto číslo interpretovať.
Kategória financií má iba 12 úloh. To je príliš málo na vyvodenie robustných záverov o zlyhaniach špecifických pre financie. Sú agenti horší vo financiách kvôli nejakej vlastnosti finančného uvažovania, alebo preto, že finančné úlohy náhodou zahŕňajú viac navigácie v dokumentoch v OwnCloud? Štúdia to v tomto rozsahu nedokáže rozlíšiť a autori sa o to ani nepokúšajú.
Autori tiež priznávajú, že úlohy „sú vo všeobecnosti na tej jednoduchšej strane kvôli potrebe automatického vyhodnocovania programami a testovacími prípadmi“. Najťažšie reálne účtovné alebo finančné úlohy — príprava ročného odsúhlasenia (reconciliácie) z nekonzistentných zdrojových dát, identifikácia problémov s dodržiavaním predpisov, tvorba manažérskych reportov za viacero účtovných období — sú v podstate automaticky nevyhodnotiteľné. Benchmark pravdepodobne nedostatočne pokrýva práve tie úlohy, na ktorých by pri autonómnych finančných agentoch záležalo najviac.
Prečo je to dôležité pre AI vo financiách
Výsledky sú tu vytriezvením užitočným spôsobom. 30 % miera dokončenia pri úlohách, ktoré autori nazývajú zjednodušenými, znamená, že autonómni agenti ani zďaleka nie sú pripravení na reálne účtovné postupy. Kategória financií je obzvlášť slabá a dominantné typy zlyhaní — zložité UI, vyhľadávanie vo viacerých dokumentoch, zlyhanie komunikácie s ľudskými partnermi — sú presne tými zručnosťami, ktoré by automatizačný agent pre Beancount potreboval: sťahovanie dát z úložiska dokumentov, krížové overovanie transakcií v reportoch a kladenie upresňujúcich otázok pred vykonaním zápisu.
Náklady 4 USD na úlohu pre najlepší model sú rozhodujúcim faktorom. Pri tejto sadzbe by prevádzka agenta na rutinnú mesačnú uzávierku zahŕňajúcu desiatky pod úloh stála stovky dolárov bez záruky spoľahlivosti. Prístup modelu Gemini-2.0-Flash, ktorý včas preruší prácu pri strate — dosahuje 19,0 % čiastkové skóre pri cene pod 1 USD na úlohu — naznačuje, že v inžinierstve existuje reálna hodnota v tom, vedieť kedy prestať a postúpiť problém človeku, namiesto zbytočného míňania tokenov na neúspešnú trajektóriu.
Simulovaní kolegovia (NPC) sú zaujímavým dizajnovým prvkom, ktorý priamo korešponduje s reálnym obmedzením Beancountu: agenti, ktorí ignorujú spätnú väzbu používateľa a pokračujú s nesprávnymi predpokladmi, sú nebezpečnejší než agenti, ktorí sa zastavia a opýtajú. Zistenie benchmarku, že súčasné modely nedokážu získať užitočné informácie zo správ od kolegov, by malo byť priamym vstupom pre dizajn akéhokoľvek agenta so schopnosťou zápisu, ktorý interaguje s ľudským účtovníkom počas práce.
Čo si prečítať ďalej
- OpenHands: An Open Platform for AI Software Developers as Generalist Agents — framework pre agentov, na ktorom stojí TheAgentCompany; arXiv:2407.16741, ICLR 2025. Pochopenie architektúry CodeAct + prehliadania v OpenHands objasňuje, ktoré schopnosti agenta sú základné a čo presne TheAgentCompany testuje.
- DocFinQA: A Long-Context Financial Reasoning Dataset — rozširuje 7 437 otázok FinQA na celé podania SEC s priemerom 123 000 slov; arXiv:2401.06915, ACL 2024. Priamo testuje finančné uvažovanie nad dlhými dokumentmi, ktoré 12 finančných úloh v TheAgentCompany nedokáže adekvátne pokryť.
- Evaluation and Benchmarking of LLM Agents: A Survey — arXiv:2507.21504. Prieskum prostredia hodnotenia agentov z roku 2025, ktorý zasadzuje TheAgentCompany do kontextu vedľa WebArena, OSWorld a SWE-bench a sleduje, ako voľby v dizajne benchmarkov ovplyvňujú naše závery o schopnostiach agentov.
