Перейти к контенту

AgentBench: Оценка LLM как агентов — уроки надежности ИИ для финансов

· 6 мин чтения
Mike Thrift
Mike Thrift
Marketing Manager

Когда я задаюсь вопросом, что именно должен надежно делать агент записи Beancount, ответ не в том, чтобы «генерировать текст», а в том, чтобы «выполнять последовательность действий в структурированной среде, не сходя с рельсов». AgentBench (Liu et al., Tsinghua, ICLR 2024) — одна из первых серьезных попыток измерить эту способность в масштабе, и данные из среза 2023 года до сих пор содержат уроки, которые стоит извлечь.

О статье

2026-05-06-agentbench-evaluating-llms-as-agents

В работе AgentBench Сяо Лю и 21 соавтор из Университета Цинхуа определяют восемь сред, предназначенных для стресс-тестирования LLM как интерактивных агентов, а не пассивных генераторов текста. Пять сред являются оригинальными: ОС (взаимодействие с bash), База данных (генерация SQL и восстановление после ошибок), Граф знаний (структурированные запросы на основе инструментов), Цифровая карточная игра (многоходовое стратегическое соревнование) и Загадки на латеральное мышление (дедуктивный диалог). Три среды адаптированы из предыдущих наборов данных: Домашнее хозяйство из ALFWorld, Веб-шопинг из WebShop и Веб-серфинг из Mind2Web. В статье оцениваются 27 моделей — коммерческие API-модели и модели с открытым исходным кодом до 70B — на основе примерно 4 000 генераций в dev-выборке и 13 000 в тестовой выборке, с указанием показателей успеха для каждой среды и общего сводного балла.

Ключевые идеи

  • GPT-4 лидирует с общим баллом 4,01. Claude-2 набирает 2,49, GPT-3.5-turbo — 2,32. CodeLlama-34B, самая сильная модель с открытым исходным кодом на момент подачи статьи, набирает всего 0,96. API-модели в среднем получают 2,24 против 0,42 у опенсорсных.
  • GPT-4 набирает 42,4% в ОС, 32,0% в Базе данных и 78,0% в Домашнем хозяйстве — такой разброс показывает, в каких средах вознаграждается следование инструкциям, а в каких — структурированное мышление.
  • «Превышение лимита задачи» (Task Limit Exceeded) является доминирующим режимом сбоя: 67,9% неудач в Графе знаний связаны с исчерпанием бюджета шагов до решения задачи. Это провал логики на длинной дистанции, а не недостаток знаний.
  • Ошибки соблюдения формата составляют 53,3% неудач в задачах с Базами данных — агент выдает синтаксически неверный SQL или оборачивает запросы в прозу, которую оценивающая система не может распарсить.
  • Выбор недопустимого действия является причиной 64,1% сбоев в Домашнем хозяйстве — агент называет действие, недоступное в текущем состоянии.
  • Обучение на коде оказывает «амбивалентное влияние на разные задачи»: оно помогает в средах, где требуется соблюдение процедур, но может мешать общим рассуждениям в задачах с упором на диалог.

Что остается актуальным, а что — нет

Основной дизайнерский выбор — многосредовая, многоходовая интерактивная оценка — верен и до сих пор используется недостаточно. Большинство бенчмарков LLM все еще измеряют качество генерации за один ход; AgentBench справедливо настаивает на том, что агенты должны продолжать принимать решения до тех пор, пока задача не будет выполнена или бюджет не будет исчерпан.

При этом срез данных устарел в некоторых важных аспектах. Разрыв между GPT-4 (4,01) и лучшей моделью с открытым исходным кодом (0,96) выглядел тревожным в середине 2023 года, но к 2025 году он в значительной степени сократился. Модели вроде Llama 3.1 70B или Qwen 2.5 72B теперь проходят барьеры следования инструкциям и соблюдения формата, которые два года назад были новыми препятствиями. Читать статью как доказательство того, что «опенсорс не справляется с агентными задачами», было бы ошибкой; чтение ее как доказательства того, что «соблюдение формата и последовательность на длинной дистанции — это сложные проблемы», по-прежнему актуально.

Существует также напряжение между широтой и глубиной. Восемь сред звучат исчерпывающе, но каждая из них относительно поверхностна. WebArena (Zhou et al., 2024) охватывает только веб-серфинг с 812 сложными шаблонными задачами; OSWorld (Xie et al., 2024) тестирует 369 реальных десктопных задач в Ubuntu и Windows. AgentBench может дать вам сигнал по разным средам, но не заменит специализированный бенчмарк, как только вы определите интересующую вас область.

Таксономия режимов сбоев в Таблице 4, вероятно, является самым долговечным вкладом. Авторы разделяют неудачи на «Превышение лимита задачи», «Ошибку формата», «Недопустимое действие» и некоторые другие. Это не баги реализации — это структурные слабости в том, как LLM поддерживают состояние, отслеживают доступные действия и производят парсируемый вывод в условиях многоходового взаимодействия. Любая серьезная агентная система должна их учитывать.

Почему это важно для финансов и ИИ

Три доминирующих режима сбоя почти напрямую проецируются на то, что, по моим ожиданиям, может сломать агента записи Beancount.

Превышение лимита задачи — это сценарий сбоя при сверке журналов. Сверка закрытия периода по нескольким счетам требует проверки начальных остатков, сопоставления дебетов и кредитов, выявления расхождений и предложения корректировок — цепочка, которая легко может занять 10–20 шагов. Агент, который исчерпает контекст или лимит шагов на середине цепочки и сдастся, не просто потерпит неудачу; он может оставить журнал в частично измененном состоянии.

Ошибка формата — это сценарий сбоя при вводе транзакций. У Beancount строгий синтаксис: некорректная проводка (отсутствие валюты, неправильный отступ, недопустимый флаг) — это ошибка парсинга, которая портит файл. Агент, который генерирует лишний текст вокруг вывода Beancount или выдает синтаксис, кажущийся верным, но в неправильном формате, бесполезен. Это основная проблема статьи CRITIC, примененная к более строгой области.

Недопустимое действие — это проблема безопасности обратной записи. Агент Beancount, работающий с реальным журналом, имеет ограниченный набор безопасных операций: добавить транзакцию, исправить флаг, переместить проводку. Галлюцинация действия вне этого набора — скажем, удаление счета, на котором все еще есть открытые позиции — это провал корректности, который может быть обнаружен только при аудите.

Вывод о том, что «обучение на коде оказывает амбивалентное влияние», также релевантен. Обратная запись Beancount ближе к генерации кода, чем к поиску знаний, поэтому модель, предварительно обученная на коде, должна подходить естественным образом. Но если обучение на коде ухудшает ведение диалога в многоходовых сценариях, необходима гибридная оценка (как в AgentBench), чтобы выявить эти компромиссы перед развертыванием.

Что читать дальше

  • WebArena (Zhou et al., 2024; arXiv:2307.13854) — 812 задач по веб-серфингу в живой среде браузера; углубленное продолжение веб-уровня AgentBench.
  • OSWorld (Xie et al., 2024; NeurIPS 2024) — бенчмарк полной десктопной среды, включая задачи с файловой системой и GUI; OS-среда в OSWorld является прямым и более глубоким преемником OS-уровня AgentBench.
  • TAU-bench (Yao et al., 2024) — оценивает агентов в средах розничной торговли и авиационных API с реальным использованием инструментов и симуляцией пользователей; наиболее близкий из опубликованных бенчмарков к использованию журнала Beancount в качестве среды.