TheAgentCompany: محکزنی عاملهای LLM در وظایف سازمانی دنیای واقعی
TheAgentCompany واقعگرایانهترین بنچمارک (محک) عاملهای سازمانی است که تاکنون در این سری بررسی کردهام. این کار از گروه گراهام نیوبیگ در دانشگاه CMU ارائه شده و به NeurIPS 2024 ارسال شده است. انگیزه این کار شکاف آشکاری بود: بنچمارکهای موجود، پیمایش وب بهصورت مجزا یا حل مسائل GitHub را آزمایش میکنند، اما وظایف واقعی محیط کار مستلزم آن است که عاملها در پلتفرمهای داخلی جستجو کنند، به همکاران پیام دهند، کد بنویسند و برنامهها را در قالب یک وظیفه واحد اجرا کنند. من اکنون آن را مطالعه میکنم زیرا نزدیکترین آزمایش کنترل شدهای است که در مورد اینکه آیا عاملهای LLM واقعاً میتوانند به عنوان همکاران دیجیتال در یک محیط عملیاتی عمل کنند یا خیر، در اختیار داریم.
مقاله
Xu و همکاران یک شرکت شبیهسازی شده مستقل ساختهاند: یک فضای کاری محلی به همراه یک اینترانت که نمونههای واقعی GitLab، OwnCloud، Plane (مدیریت پروژه) و RocketChat (پیامرسان تیمی) را اجرا میکند. این محیط همچنین شامل همکاران شبیهسازی شده است (شخصیتهای غیرقابلبازی که توسط LLMها هدایت میشوند) تا عاملها بتوانند پیام ارسال کنند و در حین انجام وظیفه راهنمایی دریافت کنند. وظایف شامل هفت دستهبندی نقش هستند: مهندسی توسعه نرمافزار (SDE)، مدیریت پروژه، منابع انسانی (HR)، علوم داده، امور مالی، اداری و یک دسته عمومی «سایر». در مجموع ۱۷۵ وظیفه وجود دارد که توسط ۲۰ دانشجوی علوم کامپیوتر و مهندس نرمافزار در طی حدود ۳۰۰۰ نفر-ساعت در طول دو ماه تدوین شده است.
ارزیابی از یک سیستم «نقطه بازرسی» استفاده میکند: هر وظیفه دارای نقاط عطف میانی است که بخشی از امتیاز کل را شامل میشود، به علاوه پاداشی برای تکمیل کامل. ارزیابها یا قطعی هستند (بررسی محتوای فایل، خروجیهای کد، وضعیت محیط) یا مبتنی بر LLM (ارزیابی متنهای آزاد). تمام مدلها تحت چا رچوب عامل OpenHands اجرا میشوند که اجرای کد، پیمایش وب و دسترسی به ترمینال را از طریق یک رابط قابل تنظیم واحد فراهم میکند.
ایدههای کلیدی
- مدل Gemini-2.5-Pro با ۳۰.۳٪ تکمیل کامل و ۳۹.۳٪ امتیاز جزئی پیشتاز است؛ Claude-3.7-Sonnet با ۲۶.۳٪ / ۳۶.۴٪ در رتبه بعدی قرار دارد؛ GPT-4o تنها به ۸.۶٪ / ۱۶.۷٪ میرسد و Llama-3.1-405B به ۷.۴٪ دست مییابد.
- بهترین مدل بهطور متوسط حدود ۲۷ گام عاملی برمیدارد و بیش از ۴ دلار برای هر وظیفه هزینه دارد؛ حتی برای وظایفی که نویسندگان آنها را سادهتر از پیچیدگی واقعی محیط کار توصیف میکنند.
- وظایف مالی در کنار امور اداری و علوم داده در زمره سختترین دستهها هستند؛ وظایف SDE با وجود نیاز به دانش فنی تخصصیتر، بهطور قابلاطمینانی سادهترینها هستند.
- سه حالت شکست غالب هستند: پیمایش رابطهای کاربری وب پیچیده (بهویژه مجموعه آفیس OwnCloud)، ناتوانی در استفاده موثر از پیامهای همکاران («کمبود مهارتهای اجتماعی»)، و رها کردن وظایف اداری چندسندی که نیاز به ارجاع متقابل خستهکننده دارند.
- نویسندگان برتری در SDE را مستقیماً به سوگیری دادههای آموزشی نسبت میدهند: پیشآموزش LLM به دلیل بنچمارکهای برجسته و سیگنالهای آموزشی عمومی فراوان، به شدت به سمت کد و دادههای GitHub متمایل است، بنابراین مدلها در وظایف نرمافزاری بسیار بهتر از جریانهای کاری HR یا مالی تعمیم مییابند.
چه مواردی درست هستند — و چه مواردی نه
طراحی محیط واقعاً تحسینبرانگیز است. اجرای نسخههای واقعی GitLab، OwnCloud و RocketChat به جای نسخههای شبیهسازی شده ساده، به این معنی است که عاملها با پیچیدگی واقعی UI روبرو هستند؛ پاپآپهای واقعی، فرآیندهای احراز هویت و موارد خاص. امتیازدهی جزئی مبتنی بر نقطه بازرسی نیز تصمیم درستی است: موفقیت یا شکست باینری باعث میشد اکثر وظایف بهطور یکنواخت ناامیدکننده به نظر برسند و پیشرفتهای واقعی عاملها نادیده گرفته شود.
با این حال، چندین نقطه ضعف قابل ذکر است. بحرانیترین مورد این است که هیچ خط مبنایی برای عملکرد انسانی وجود ندارد. نویسندگان به این موضوع اذعان دارند؛ م حدودیت منابع مانع از جمعآوری زمانبندی یا نرخ موفقیت انسانی شده است، که یعنی ما معیاری برای مقایسه نداریم. تکمیل ۳۰ درصدی توسط عامل بد به نظر میرسد، اما بدون دانستن اینکه آیا یک انسان ۲۰ دقیقه یا ۳ ساعت برای همان کار وقت صرف میکند، یا اینکه آیا برخی وظایف ذاتاً مبهم هستند، تفسیر این عدد دشوار است.
دسته امور مالی تنها ۱۲ وظیفه دارد. این تعداد برای نتیجهگیری قوی درباره شکستهای خاص مالی بسیار کم است. آیا عاملها به دلیل ماهیت استدلال مالی ضعیفتر هستند، یا به این دلیل که وظایف مالی به طور تصادفی شامل پیمایش اسناد بیشتر در OwnCloud بودهاند؟ مقاله نمیتواند در این مقیاس تفکیک قائل شود و نویسندگان هم تلاشی برای آن نکردهاند.
نویسندگان همچنین اعتراف میکنند که وظایف «به دلیل نیاز به ارزیابی خودکار با برنامهها و موارد تست، عموماً در سمت سادهتر قرار دارند». سختترین وظایف واقعی حسابداری یا مالی (مانند تهیه تطبیق حساب پایان سال از دادههای منبع ناهماهنگ، شناسایی موارد عدم انطباق با قوانین و مقررات، یا تهیه گزارش مدیریت در چندین دوره دفتر کل) اساساً برای ارزیابی خودکار غیرممکن هستند. این بنچمارک احتمالاً دقیقاً از همان وظایفی که برای عاملهای مالی خودمختار بیشترین اهمیت را دارند، نمونهبرداری کمی انجام داده است.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
نتایج اینجا به شکلی مفید تاملبرانگیز هستند. نرخ تکمیل ۳۰ درصدی در وظایفی که نویسندگان آنها را سادهسازی شده مینامند، به این معنی است که عاملهای خودمختار به هیچ وجه برای جریانهای کاری واقعی حسابداری آماده نیستند. دسته امور مالی بهطور خاص ضعیف است و حالتهای شکست اصلی (رابطهای کاربری پیچیده، بازیابی اسناد چندگانه، اختلال در ارتباط با همتایان انسانی) دقیقاً همان مهارتهایی هستند که یک عامل اتوماسیون Beancount به آنها نیاز دارد: استخراج دادهها از مخازن اسناد، تطبیق تراکنشها در گزارشهای مختلف و پرسیدن سوالات شفافسازی پیش از ثبت نهایی دادهها.
هزینه ۴ دلاری برای هر وظیفه در بهترین مدل، یک عامل بازدارنده است. با این نرخ، اجرای یک عامل برای بستن حسابهای روتین پایان ماه که شامل دهها وظیفه فرعی است، صدها دلار هزینه خواهد داشت، آن هم بدون تضمین قابلیت اطمینان. الگوی Gemini-2.0-Flash در پذیرش سریع شکست (کسب امتیاز جزئی ۱۹.۰٪ با هزینه کمتر از ۱ دلار برای هر وظیفه) نشان میدهد که ارزش مهندسی واقعی در دانستن این است که چه زمانی باید متوقف شد و کار را به انسان ارجاع داد، نه اینکه توکنها را در یک مسیر شکستخورده هدر داد.
همکاران شبیهسازی شده (NPCها) یک ایده جالب هستند که مستقیماً با محدودیت واقعی Beancount مطابقت دارد: عاملهایی که بازخورد کاربر را نادیده میگیرند و با فرضیات اشتباه پیش میروند، خطرناکتر از عاملهایی هستند که متوقف شده و سوال میپرسند. یافته بنچمارک مبنی بر اینکه مدلهای فعلی در استخراج اطلاعات مفید از پیامهای همکاران شکست میخورند، باید یک ورودی طراحی مستقیم برای هر عامل ثبتکنندهای باشد که در میانه کار با یک حسابدار انسانی تعامل دارد.
برای مطالعه بیشتر
- OpenHands: An Open Platform for AI Software Developers as Generalist Agents — چارچوب عاملی که زیربنای TheAgentCompany است؛ arXiv:2407.16741، ICLR 2025. درک معماری CodeAct + browsing در OpenHands روشن میکند که کدام قابلیتهای عاملی پایه هستند و TheAgentCompany واقعاً چه چیزی را آزمایش میکند.
- DocFinQA: A Long-Context Financial Reasoning Dataset — این مجموعه ۷,۴۳۷ سوال FinQA را به پروندههای کامل SEC با میانگین ۱۲۳ هزار کلمه گسترش میدهد؛ arXiv:2401.06915، ACL 2024. این کار مستقیماً استدلال مالی در اسناد طولانی را آزمایش میکند که ۱۲ وظیفه مالی TheAgentCompany نمیتوانند به درستی نمونهبرداری کنند.
- Evaluation and Benchmarking of LLM Agents: A Survey — arXiv:2507.21504. یک بررسی در سال ۲۰۲۵ از چشمانداز ارزیابی عاملها که TheAgentCompany را در کنار WebArena، OSWorld و SWE-bench قرار میدهد و بررسی میکند که چگونه انتخابهای طراحی بنچمارک، نتیجهگیریهای ما درباره توانایی عاملها را شکل میدهند.
