TheAgentCompany: Тестване на LLM агенти върху реални корпоративни задачи
TheAgentCompany е най-реалистичният бенчмарк за корпоративни агенти, който съм чел досега в тази серия. Той идва от групата на Греъм Нюбиг в CMU и беше представен на NeurIPS 2024, воден от ясна празнина: съществуващите бенчмаркове тестват изолирана уеб навигация или разрешаване на проблеми в GitHub, но реалните работни задачи изискват агентите да преглеждат вътрешни платформи, да изпращат съобщения на колеги, да пишат код и да изпълняват програми в рамките на една задача. Чета го сега, защото това е най-близкият контролиран експеримент, който имаме, относно това дали LLM агентите действително могат да функционират като цифрови колеги в реална работна среда.
Документът
Сю и др. изграждат самостоятелна симулирана компания: локално работно пространство плюс интранет, работещ с реални инстанции на GitLab, OwnCloud, Plane (управление на проекти) и RocketChat (екипни съобщения). Средата включва и симулирани колеги — NPC-та, поддържани от LLM — така че агентите могат да изпращат съобщения и да получават насоки по време на изпълнението. Задачите обхващат седем категории роли: разработка на софтуер (SDE), управление на проекти, ЧР, наука за данните, финанси, администрация и обща категория „други“. Общо 175 задачи, подбрани от 20 студенти по компютърни науки и софтуерни инженери за около 3000 човекочаса в рамките на два месеца.
Оценката използва система от контролни точки: всяка задача има междинни етапи, струващи част от общия резултат, плюс бонус за пълно завършване. Оценителите са или детерминистични (проверяват съдържание на файлове, изходни данни от код, състояние на средата), или базирани на LLM (оценяват текст в свободна форма). Всички модели работят под рамката за агенти OpenHands, която осигурява изпълнение на код, уеб сърфиране и достъп до терминал от единен конфигуруем интерфейс.
Основни идеи
- Gemini-2.5-Pro води с 30,3% пълно завършване и 39,3% частичен резултат; Claude-3.7-Sonnet следва с 26,3% / 36,4%; GPT-4o достига само 8,6% / 16,7%; Llama-3.1-405B постига 7,4%.
- Най-добрият модел извършва средно около 27 стъпки и струва над $4 на задача — дори за задачи, които авторите описват като по-прости от сложността на реалното работно място.
- Финансовите задачи са сред най-трудните категории, заедно с администрацията и науката за данните; задачите за SDE са най-лесни, въпреки че изискват по-специализирани технически познания.
- Преобладават три вида провали: навигиране в сложни уеб интерфейси (особено офис пакета на OwnCloud), неуспех при продуктивното използване на съобщения от колеги („липса на социални умения“) и отказ от административни задачи с множество документи, изискващи досадно кръстосано сравняване.
- Авторите приписват предимството в SDE директно на пристрастия в данните за обучение: предварителното обучение на LLM е силно насочено към код и данни от GitHub поради известни бенчмаркове и изобилен публичен сигнал за обучение, така че моделите се обобщават много по-добре за софтуерни задачи, отколкото за работни процеси в ЧР или финансите.
Кое е убедително и кое — не
Дизайнът на средата е наистина впечатляващ. Работата с реални GitLab, OwnCloud и RocketChat, а не със симулирани заглушки, означава, че агентите се сблъскват с автентична сложност на потребителския интерфейс — реални изскачащи прозорци, потоци за удостоверяване и гранични случаи. Частичното оценяване въз основа на контролни точки също е правилното решение: бинарният успех/неуспех би направил повечето задачи да изглеждат еднакво безнадеждни, скривайки местата, където агентите действително постигат напредък.
Въпреки това си струва да се отбележат няколко слаби места. Най-важното е, че липсва базова линия за човешко представяне. Авторите признават това — ресурсните ограничения са попречили на събирането на данни за времето или успеха на хората — което означава, че нямаме база за сравнение. 30% завършване от агенти звучи зле, но без да знаем дали човек би отделил 20 минути или 3 часа за същата задача, или дали някои задачи не са истински двусмислени, числото е трудно да се контекстуализира.
Категорията финанси има само 12 задачи. Това е твърде малко за извличане на надеждни заключения за специфичните провали във финансите. Дали агентите са по-лоши във финансите поради някакво свойство на финансовото разсъждение, или защото финансовите задачи случайно включват повече навигация в документи в OwnCloud? Документът не може да разграничи това в такъв мащаб и авторите не се опитват.
Авторите също така признават, че задачите „обикновено са от по-простата страна поради необходимостта от автоматична оценка с програми и тестови слу чаи“. Най-трудните реални счетоводни или финансови задачи — подготовка на годишно равнение от непоследователни изходни данни, идентифициране на проблеми с регулаторното съответствие, изготвяне на управленски отчет за множество отчетни периоди — са практически невъзможни за автоматична оценка. Бенчмаркът вероятно недостатъчно обхваща точно тези задачи, които биха били най-важни за автономните финансови агенти.
Защо това е важно за финансовия AI
Резултатите тук са отрезвяващи по полезен начин. 30% ниво на завършване на задачи, които авторите наричат опростени, означава, че автономните агенти са далеч от оперативна готовност за реални счетоводни работни процеси. Категорията финанси е особено слаба, а доминиращите режими на отказ — сложни интерфейси, извличане на информация от множество документи, прекъсване на комуникацията с човешките колеги — са именн о уменията, от които би се нуждаел един агент за автоматизация на Beancount: извличане на данни от хранилища за документи, кръстосано сравняване на трансакции в отчети и задаване на уточняващи въпроси преди запис на данни.
Цената от $4 на задача за най-добрия модел е ограничаващ фактор. При този темп, пускането на агент за рутинно приключване на месеца, включващо десетки подзадачи, би струвало стотици долари без гаранция за надеждност. Моделът Gemini-2.0-Flash, който прекратява работата си рано — постигайки 19,0% частичен резултат при цена под $1 на задача — подсказва, че има реална инженерна стойност в това да се знае кога да се спре и да се потърси съдействие, вместо да се хабят токени за неуспешна траектория.
NPC колегите са интересен примитив, който кореспондира директно с реалното ограничение на Beancount: агентите, които игнорират обратната връзка от потребителя и продължават с грешни предположения, са по-опасни от агентите, които спират и питат. Констатацията на бенчмарка, че текущите модели не успяват да извлекат полезна информация от съобщенията на колегите, трябва да бъде директен входен параметър при проектирането на всеки агент, който взаимодейства с човек счетоводител по време на сесия.
Какво да прочетете след това
- OpenHands: An Open Platform for AI Software Developers as Generalist Agents — платформата за агенти, стояща зад TheAgentCompany; arXiv:2407.16741, ICLR 2025. Разбирането на CodeAct архитектурата и възможностите за сърфиране на OpenHands изяснява кои способности на агентите са базови и какво всъщност тества TheAgentCompany.
- DocFinQA: A Long-Context Financial Reasoning Dataset — разширява 7437 въпроса от FinQA до пълни отчети на SEC, средно 123 000 думи; arXiv:2401.06915, ACL 2024. Директно тества финансовото разсъждение върху дълги документи, което 12-те финансови задачи на TheAgentCompany не могат да обхванат адекватно.
- Evaluation and Benchmarking of LLM Agents: A Survey — arXiv:2507.21504. Проучване от 2025 г. на пейзажа за оценка на агенти, което поставя TheAgentCompany в контекст до WebArena, OSWorld и SWE-bench и проследява как изборът на дизайн на бенчмарка оформя изводите за способностите на агентите.
