Перейти до основного вмісту

AgentBench: Оцінювання LLM як агентів — уроки для надійності ШІ у фінансах

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Коли я запитую себе, що насправді має надійно робити агент запису Beancount, відповідь полягає не в «генерації тексту», а в «виконанні послідовності дій у структурованому середовищі без відхилень». AgentBench (Liu та ін., Цінхуа, ICLR 2024) — одна з перших серйозних спроб виміряти цю здатність у масштабі, і дані зрізу 2023 року все ще містять уроки, які варто засвоїти.

Про статтю

2026-05-06-agentbench-evaluating-llms-as-agents

AgentBench, створений Сяо Лю та 21 співавтором з Університету Цінхуа, визначає вісім середовищ, розроблених для стрес-тестування LLM як інтерактивних агентів, а не пасивних генераторів тексту. П'ять середовищ є оригінальними: OS (взаємодія з bash), Database (генерація SQL та відновлення після помилок), Knowledge Graph (структуровані запити на основі інструментів), Digital Card Game (багатоходова стратегічна конкуренція) та Lateral Thinking Puzzles (дедуктивний діалог). Три адаптовані з попередніх наборів даних: House-Holding з ALFWorld, Web Shopping з WebShop та Web Browsing з Mind2Web. У статті оцінюються 27 моделей — комерційні API-моделі та моделі з відкритим кодом до 70B параметрів — на основі приблизно 4 000 генерацій для розробки та 13 000 для тестування, і наводяться як показники успіху для кожного середовища, так і загальний комбінований бал.

Ключові ідеї

  • GPT-4 лідирує із загальним балом 4,01. Claude-2 отримав 2,49, GPT-3.5-turbo — 2,32. CodeLlama-34B, найпотужніша модель із відкритим кодом на момент публікації, набрала лише 0,96. Моделі на основі API у середньому мають 2,24 проти 0,42 у моделей з відкритим кодом.
  • GPT-4 отримала 42,4% в OS, 32,0% у Database та 78,0% у House-Holding — цей розрив показує, які середовища винагороджують слідування інструкціям, а які — структуроване мислення.
  • «Перевищення ліміту завдань» (Task Limit Exceeded) є домінуючим типом помилок: 67,9% збоїв у графі знань стаються через вичерпання ліміту кроків до вирішення завдання. Це провал міркування на довгому горизонті, а не відсутність знань.
  • Помилки відповідності формату становлять 53,3% збоїв у завданнях із базами даних — агент створює синтаксично неправильний SQL або огортає запити текстом, який оцінювач не може розпізнати.
  • Вибір недійсної дії спричиняє 64,1% збоїв у House-Holding — агент називає дію, яка недоступна в поточному стані.
  • Навчання на коді має «неоднозначний вплив на різні завдання»: воно допомагає в середовищах, де потрібно дотримуватися процедур, але може зашкодити загальному мисленню в завданнях, насичених діалогами.

Що залишається актуальним, а що — ні

Основний вибір дизайну — багатосередовищне, багатоходове інтерактивне оцінювання — є правильним і досі недостатньо використовується. Більшість бенчмарків LLM все ще вимірюють якість генерації в один хід; AgentBench справедливо наполягає на тому, що агенти повинні продовжувати приймати рішення, доки завдання не буде виконано або бюджет не вичерпається.

Тим не менш, цей зріз застарів у деяких важливих аспектах. Розрив між GPT-4 (4,01) та найкращою моделлю з відкритим кодом (0,96) виглядав тривожним у середині 2023 року, але до 2025 року він значною мірою скоротився. Моделі на кшталт Llama 3.1 70B або Qwen 2.5 72B зараз проходять перевірки на дотримання інструкцій та відповідність формату, які були новими перешкодами два роки тому. Сприймати цю статтю як доказ того, що «відкритий код не здатний виконувати агентські завдання», було б помилкою; сприйняття її як доказу того, що «відповідність формату та послідовність на довгому горизонті є складними проблемами», все ще актуальне.

Також існує протиріччя між широтою та глибиною. Вісім середовищ звучать масштабно, але кожне з них відносно поверхневе. WebArena (Zhou та ін., 2024) охоплює лише перегляд веб-сторінок із 812 шаблонованими завданнями на довгому горизонті; OSWorld (Xie та ін., 2024) тестує 369 реальних настільних завдань на Ubuntu та Windows. AgentBench може дати сигнал між середовищами, але не замінить спеціалізований бенчмарк після того, як ви визначите пріоритетне для вас середовище.

Таксономія типів помилок у таблиці 4 є, мабуть, найбільш стійким внеском. Автори розділяють помилки на перевищення ліміту завдань, помилку формату, недійсну дію та кілька інших. Це не просто баги реалізації — це структурні слабкості в тому, як LLM підтримують стан, відстежують доступні дії та створюють придатний для аналізу вивід під багатоходовим тиском. Будь-яка серйозна агентська система повинна вирішувати ці питання.

Чому це важливо для ШІ у фінансах

Три основні типи помилок майже безпосередньо відображають те, що, на мою думку, може зламати агента запису Beancount.

Перевищення ліміту завдань — це сценарій збою при звірці рахунків. Звірка закриття періоду для багатьох рахунків вимагає перевірки початкових залишків, зіставлення дебетів і кредитів, виявлення розбіжностей і пропонування коригувань — ланцюжок, який легко може скласти 10–20 кроків. Агент, який вичерпує свій контекст або ліміт кроків посеред ланцюжка і здається, не просто зазнає невдачі; він може залишити гросбух у частково зміненому стані.

Помилка формату — це сценарій збою при введенні транзакції. Beancount має суворий синтаксис: неправильно сформований запис (відсутня валюта, неправильний відступ, недійсний прапорець) є помилкою розбору, яка пошкоджує файл. Агент, який генерує текст навколо свого виводу Beancount або створює візуально правильний синтаксис у неправильному форматі, є марним. Це основна проблема статті CRITIC, застосована до більш суворої сфери.

Недійсна дія — це проблема безпеки запису. Агент Beancount, що працює з реальним гросбухом, має обмежений набір безпечних операцій: додати транзакцію, виправити прапорець, перемістити запис. Галюцинація дії поза цим набором — наприклад, видалення рахунку, який все ще має відкриті позиції — є збоєм правильності, який може бути непоміченим до моменту аудиту.

Висновки про те, що «навчання на коді має неоднозначний вплив», також актуальні. Запис у Beancount ближчий до генерації коду, ніж до пошуку знань, тому модель, попередньо навчена на коді, має бути природним вибором. Але якщо навчання на коді погіршує дотримання діалогу в багатоходових сценаріях, необхідне гібридне оцінювання (як в AgentBench), щоб виявити ці компроміси перед розгортанням.

Що читати далі

  • WebArena (Zhou та ін., 2024; arXiv:2307.13854) — 812 завдань із перегляду веб-сторінок у живому середовищі браузера; поглиблене продовження веб-рівня AgentBench.
  • OSWorld (Xie та ін., 2024; NeurIPS 2024) — бенчмарк повного настільного середовища, включаючи файлову систему та завдання GUI; середовище ОС в OSWorld є прямим та глибшим наступником рівня ОС в AgentBench.
  • TAU-bench (Yao та ін., 2024) — оцінює агентів у API-середовищах роздрібної торгівлі та авіакомпаній з реальним використанням інструментів та симуляцією користувачів; найближчий опублікований бенчмарк до використання гросбуха Beancount як середовища.