TheAgentCompany: Бенчмаркінг агентів LLM на реальних корпоративних завданнях
TheAgentCompany — це найреалістичніший бенчмарк корпоративних агентів, про який я читав у цій серії. Він створений групою Грема Нойбіга з CMU і був представлений на NeurIPS 2024. Його мотивацією став очевидний розрив: існуючі бенчмарки тестують ізольовану веб-навігацію або розв'язання тікетів у GitHub, тоді як реальні робочі завдання вимагають від агентів переглядати внутрішні платформи, листуватися з колегами, писати код і запускати програми в межах одного завдання. Я читаю його зараз, тому що це найбільш наближений контрольований експеримент, який у нас є, щодо того, чи можуть агенти LLM насправді функціонувати як цифрові колеги в умовах, що мають реальні наслідки.
Стаття
Сюй та співавт. розробили автономну симульовану компанію: локальний робочий простір плюс інтрамережу з реальними інстансами GitLab, OwnCloud, Plane (управління проектами) та RocketChat (командний месенджер). Середовище також включає симульованих колег — NPC на базі LLM — тому агенти можуть надсилати повідомлення та отримувати вказівки під час виконання завдання. Завдання охоплюють сім категорій ролей: інженерія розробки ПЗ (SDE), управління проектами, HR, наука про дані (data science), фінанси, адміністрування та загальна категорія «інше». Загалом 175 завдань, відібраних 20 студентами комп'ютерних наук та інженерами-програмістами за приблизно 3000 людино-годин протягом двох місяців.
Оцінювання використовує систему чекпоінтів: кожне завдання має проміжні етапи, які вартують частину загального бала, плюс бонус за повне завершення. Оцінювачі є або детермінованими (перевірка вмісту файлів, виводу коду, стану середовища), або на базі LLM (оцінювання тексту у довільній формі). Усі моделі працюють під управлінням фреймворку OpenHands, який забезпечує виконання коду, перегляд веб-сторінок і доступ до термінала з єдиного конфігурованого інтерфейсу.
Ключові ідеї
- Gemini-2.5-Pro лідирує з 30,3% повного виконання та 39,3% часткового бала; за нею йде Claude-3.7-Sonnet з 26,3% / 36,4%; GPT-4o досягає лише 8,6% / 16,7%; Llama-3.1-405B справляється на 7,4%.
- Найкраща модель витрачає в середньому приблизно 27 кроків агента і коштує понад 4 долари за завдання — навіть для завдань, які автори описують як простіші за реальну складність на робочому місці.
- Фінансові завдання є одними з найскладніших категорій, поряд з адмініструванням та наукою про дані; завдання SDE стабільно залишаються найлегшими, попри необхідність спеціалізованих технічних знань.
- Домінують три типи збоїв: навігація в складних веб-інтерфейсах (особливо в офісному пакеті OwnCloud), нездатність продуктивно використовувати повідомлення від колег («брак соціальних навичок») та відмова від багатодокументних адміністративних завдань, що вимагають виснажливої перевірки перехресних посилань.
- Автори пов'язують перевагу SDE безпосередньо з упередженістю навчальних даних: попереднє навчання LLM значною мірою схиляється до коду та даних GitHub через відомі бенчмарки та велику кількість публічних сигналів для навчання, тому моделі узагальнюють набагато краще для завдань з програмування, ніж для робочих процесів HR або фінансів.
Що витримує критику, а що ні
Дизайн середовища справді вражає. Використання реальних GitLab, OwnCloud та RocketChat замість симульованих заглушок означає, що агенти стикаються з автентичною складністю інтерфейсу — реальними спливаючими вікнами, потоками автентифікації та межовими випадками. Часткове оцінювання на основі чекпоінтів також є правильним рішенням: бінарний успіх/невдача зробив би більшість завдань безнадійними, приховуючи реальний прогрес агентів.
Тим не менш, варто зазначити кілька слабких місць. Найкритичнішим є відсутність базового рівня продуктивності людини. Автори визнають це — обмеження ресурсів завадили зібрати дані про час виконання людьми або рівень їхнього успіху — а це означає, що у нас немає знаменника. 30% виконання агентом виглядає погано, але без розуміння того, чи витратить людина 20 хвилин або 3 години на те саме завдання, чи є деякі завдання справді неоднозначними, це число важко контекстуалізувати.
Категорія «фінанси» містить лише 12 завдань. Це занадто мало, щоб робити надійні висновки про помилки, специфічні для фінансів. Чи гірші агенти у фінансах через певну властивість фінансового мислення, чи тому, що фінансові завдання випадково включають більше навігації по документах OwnCloud? Стаття не може розмежувати це на такому масштабі, і автори цього не намагаються робити.
Автори також визнають, що завдання «загалом є простішими через необхідність автоматичного оцінювання за допомогою програм та тестів». Найскладніші реальні бухгалтерські або фінансові завдання — підготовка звірки на кінець року з неузгоджених вихідних даних, виявлення проблем з дотриманням нормативних вимог, створення управлінського звіту за кілька періодів головної книги — практично неможливо оцінити автоматично. Бенчмарк, імовірно, недостатньо охоплює саме ті завдання, які були б найбільш важливими для автономних фінансових агентів.
Чому це важливо для AI у фінансах
Результати тут протверезні у корисному сенсі. Рівень виконання 30% у завданнях, які автори називають спрощеними, означає, що автономні агенти ще дуже далекі від готовності до реальних бухгалтерських процесів. Категорія ф інансів є особливо слабкою, а основні режими збоїв — складні інтерфейси, пошук у кількох документах, збій у комунікації з людьми — це саме ті навички, які знадобилися б агенту автоматизації Beancount: отримання даних зі сховища документів, перевірка транзакцій у звітах та уточнюючі запитання перед записом даних.
Вартість у 4 долари за завдання для найкращої моделі є стримуючим фактором. При такому тарифі запуск агента для рутинного закриття місяця, що включає десятки підзавдань, коштуватиме сотні доларів без жодних гарантій надійності. Модель поведінки Gemini-2.0-Flash, яка передбачає раннє припинення роботи — досягнення 19,0% часткового бала за ціною менше 1 долара за завдання — свідчить про те, що існує реальна інженерна цінність у тому, щоб знати, коли зупинитися і передати завдання людині, а не спалювати токени на невдалу траєкторію.
NPC-симулятори колег — це цікавий примітив дизайну, який безпосередньо відображає реальні обмеження Beancount: агенти, які ігнорують зворотний зв’язок користувача і діють на основі хибних припущень, небезпечніші за агентів, які зупиняються і запитують. Висновок бенчмарка про т е, що поточні моделі не можуть отримати корисну інформацію з повідомлень колег, має стати безпосереднім вхідним даним для дизайну будь-якого агента зворотного запису (write-back agent), який взаємодіє з бухгалтером під час сесії.
Що читати далі
- OpenHands: відкрита платформа для розробників ПЗ зі штучним інтелектом як агентів загального призначення — фреймворк агентів, що лежить в основі TheAgentCompany; arXiv:2407.16741, ICLR 2025. Розуміння архітектури CodeAct + браузер в OpenHands роз’яснює, які можливості агентів є базовими, а що насправді тестує TheAgentCompany.
- DocFinQA: набір даних для фінансового міркування в довгому контексті — розширює 7437 запитань FinQA до повних звітів SEC, що в середньому налічують 123 тисячі слів; arXiv:2401.06915, ACL 2024. Безпосередньо тестує фінансове міркування в довгих документах, яке 12 фінансових завдань TheAgentCompany не можуть адекватно охопити.
- Оцінка та бенчмаркінг агентів LLM: огляд — arXiv:2507.21504. Огляд ландшафту оцінювання агентів 2025 року, який ставить TheAgentCompany в контекст поруч із WebArena, OSWorld та SWE-bench і відстежує, як вибір дизайну бенчмарка впливає на висновки, які ми можемо зробити про можливості агентів.
