TheAgentCompany: Бенчмаркинг LLM-агентов на реальных корпоративных задачах
TheAgentCompany — это самый реалистичный бенчмарк корпоративных агентов, который я встречал в этой серии. Он создан группой Грэма Ньюбига из CMU и был представлен на NeurIPS 2024. Исследование мотивировано явным пробелом: существующие тесты проверяют изолированную веб-навигацию или решение проблем на GitHub, но реальные рабочие задачи требуют от агентов умения просматривать внутренние платформы, переписываться с коллегами, писать код и запускать программы в рамках одной задачи. Я изучаю его сейчас, потому что это наиболее близкий к реальности контролируемый эксперимент по проверке того, могут ли LLM-агенты действительно функционировать как цифровые сотрудники в значимых условиях.
О документе
Сюй и др. сконструировали автономную симулированную компанию: локальное рабочее пространство и интрасеть, в которой запущены реальные экземпляры GitLab, OwnCloud, Plane (управление проектами) и RocketChat (командный мессенджер). Среда также включает симулированных коллег — NPC на базе LLM — так что агенты могут отправлять сообщения и получать рекомендации в процессе выполнения задачи. Задачи охватывают семь категорий ролей: разработка ПО (SDE), управление проектами, HR, наука о данных, финансы, администрирование и общая категория «прочее». Всего представлено 175 задач, отобранных 20 студентами факультета компьютерных наук и инженерами-программистами в течение примерно 3000 человеко-часов за два месяца.
Оценка проводится по системе чекпоинтов: каждая задача имеет промежуточные этапы, за которые начисляется часть баллов, плюс бонус за полное завершение. Проверку осуществляют либо детерминированные инструменты (проверка содержимого файлов, вывода кода, состояния среды), либо системы на базе LLM (оценка текста в свободной форме). Все модели работают под управлением фреймворка OpenHands, который обеспечивает выполнение кода, просмотр веб-страниц и доступ к терминалу из единой настраиваемой среды.
Ключевые идеи
- Gemini-2.5-Pro лидирует с 30,3% полного завершения и 39,3% частичного балла; далее следует Claude-3.7-Sonnet с 26,3% / 36,4%; GPT-4o достигает лишь 8,6% / 16,7%; Llama-3.1-405B набирает 7,4%.
- Лучшая модель совершает в среднем 27 шагов и стоит более 4 долларов за задачу — даже для задач, которые авторы описывают как более простые по сравнению с реальной сложностью на рабочем месте.
- Финансовые задачи входят в число самых трудных катег орий наряду с администрированием и наукой о данных; SDE-задачи стабильно оказываются самыми легкими, несмотря на требования к специализированным техническим знаниям.
- Доминируют три типа сбоев: навигация в сложных веб-интерфейсах (особенно в офисном пакете OwnCloud), неумение эффективно использовать сообщения коллег («недостаток социальных навыков») и отказ от выполнения административных задач с множеством документов, требующих утомительной перекрестной сверки данных.
- Авторы связывают преимущество в SDE напрямую с предвзятостью обучающих данных: предварительное обучение LLM сильно смещено в сторону кода и данных GitHub из-за известных бенчмарков и обилия публичных сигналов, поэтому модели обобщают навыки гораздо лучше для задач по разработке ПО, чем для HR или финансовых процессов.
Что заслуживает доверия, а что нет
Дизайн среды действительно впечатляет. Запуск реальных GitLab, OwnCloud и RocketChat вместо упрощенных имитаций означает, что агенты сталкиваются с аутентичной сложностью интерфейса — настоящими всплывающими окнами, процессами аутентификации и пограничными случаями. Частичная оценка на основе чекпоинтов также является правильным решением: бинарный результат «успех/провал» сделал бы большинство задач безнадежными, скрывая реальный прогресс агентов.
Тем не менее, стоит отметить несколько слабых мест. Самое критичное — отсутствие базового уровня производительности человека. Авторы признают это — нехватка ресурсов не позволила собрать данные о времени выполнения или проценте успеха людьми — а значит, у нас нет точки сравнения. 30% выполнения агентом звучит плохо, но без понимания того, потратит ли человек на ту же задачу 20 минут или 3 часа, или же некоторые задачи действительно двусмысленны, это число трудно интерпретировать.
В категории «финансы» всего 12 задач. Это слишком мало для надежных выводов о специфических сбоях в этой сфере. Хуже ли агенты справляются с финансами из-за особенностей финансового мышл ения или из-за того, что финансовые задачи чаще включают навигацию по документам в OwnCloud? Документ не дает ответа на этом масштабе, и авторы не пытаются это выяснить.
Авторы также признают, что задачи «в целом относятся к более простым из-за необходимости автоматической оценки с помощью программ и тестов». Самые сложные задачи реального бухгалтерского или финансового учета — подготовка годовой сверки на основе противоречивых исходных данных, выявление проблем с соблюдением нормативных требований, формирование управленческого отчета за несколько периодов главной книги — практически невозможно оценить автоматически. Бенчмарк, скорее всего, недостаточно охватывает именно те задачи, которые были бы наиболее важны для автономных финансовых агентов.
Почему это важно для ИИ в финансах
Результаты здесь отрезвляют в хорошем смысле. 30% успеха на задачах, которые авторы называют упрощенными, означают, что автономные агенты даже близко не готовы к реальным бухгалтерским процессам. Финансовая категория особенно слаба, а доминирующие причины сбоев — сложные интерфейсы, поиск информации в нескольких документах, срывы коммуникации с людьми — это именно те навыки, которые понадобились бы агенту автоматизации Beancount: извлечение данных из хранилищ документов, перекрестная сверка транзакций в отчетах и уточняющие вопросы перед фиксацией записей.
Стоимость в 4 доллара за задачу для лучшей модели является сдерживающим фактором. При таких расценках запуск агента для рутинного закрытия месяца, включающего десятки подзадач, будет стоить сотни долларов без каких-либо гарантий надежности. Поведение Gemini-2.0-Flash, которая рано фиксирует убытки — достигая 19,0% частичного балла при стоимости менее 1 доллара за задачу — предполагает, что в инженерном плане важно понимать, когда стоит остановиться и запросить помощь, а не сжигать токены на заведомо провальной траектории.
NPC в роли «симулированных коллег» — это интересный примитив, который напрямую соотносится с реальными ограничениями Beancount: агенты, которые игнорируют отзывы пользователей и действуют на основе неверных предположений, опаснее, чем агенты, которые останавливаются и спрашивают. Вывод бенчмарка о том, что текущие модели не могут извлечь полезную информацию из сообщений коллег, должен стать прямым вводным требованием для любого агента с функцией обратной записи, взаимодействующего с бухгалтером-человеком в процессе работы.
Что почитать дальше
- OpenHands: An Open Platform for AI Software Developers as Generalist Agents — фреймворк агентов, лежащий в основе TheAgentCompany; arXiv:2407.16741, ICLR 2025. Понимание архитектуры CodeAct + браузинг в OpenHands проясняет, какие возможности агента являются базовыми, а что именно тестирует TheAgentCompany.
- DocFinQA: A Long-Context Financial Reasoning Dataset — расширяет 7437 вопросов FinQA на полные отчеты SEC объемом в среднем 123 тысячи слов; arXiv:2401.06915, ACL 2024. Напрямую тестирует финансовое мышление на длинных документах, которое 12 задач TheAgentCompany не могут адекватно охватить.
- Evaluation and Benchmarking of LLM Agents: A Survey — arXiv:2507.21504. Обзор ландшафта оценки агентов 2025 года, который ставит TheAgentCompany в один ряд с WebArena, OSWorld и SWE-bench и прослеживает, как выбор дизайна бенчмарка формирует наши выводы о возможностях агентов.
