پرش به محتوای اصلی

TheAgentCompany: محک‌زنی عامل‌های LLM در وظایف سازمانی دنیای واقعی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

TheAgentCompany واقع‌گرایانه‌ترین بنچمارک (محک) عامل‌های سازمانی است که تاکنون در این سری بررسی کرده‌ام. این کار از گروه گراهام نیوبیگ در دانشگاه CMU ارائه شده و به NeurIPS 2024 ارسال شده است. انگیزه این کار شکاف آشکاری بود: بنچمارک‌های موجود، پیمایش وب به‌صورت مجزا یا حل مسائل GitHub را آزمایش می‌کنند، اما وظایف واقعی محیط کار مستلزم آن است که عامل‌ها در پلتفرم‌های داخلی جستجو کنند، به همکاران پیام دهند، کد بنویسند و برنامه‌ها را در قالب یک وظیفه واحد اجرا کنند. من اکنون آن را مطالعه می‌کنم زیرا نزدیک‌ترین آزمایش کنترل‌ شده‌ای است که در مورد اینکه آیا عامل‌های LLM واقعاً می‌توانند به عنوان همکاران دیجیتال در یک محیط عملیاتی عمل کنند یا خیر، در اختیار داریم.

مقاله

2026-06-19-theagentcompany-benchmarking-llm-agents-real-world-tasks

Xu و همکاران یک شرکت شبیه‌سازی شده مستقل ساخته‌اند: یک فضای کاری محلی به همراه یک اینترانت که نمونه‌های واقعی GitLab، OwnCloud، Plane (مدیریت پروژه) و RocketChat (پیام‌رسان تیمی) را اجرا می‌کند. این محیط همچنین شامل همکاران شبیه‌سازی شده است (شخصیت‌های غیرقابل‌بازی که توسط LLMها هدایت می‌شوند) تا عامل‌ها بتوانند پیام ارسال کنند و در حین انجام وظیفه راهنمایی دریافت کنند. وظایف شامل هفت دسته‌بندی نقش هستند: مهندسی توسعه نرم‌افزار (SDE)، مدیریت پروژه، منابع انسانی (HR)، علوم داده، امور مالی، اداری و یک دسته عمومی «سایر». در مجموع ۱۷۵ وظیفه وجود دارد که توسط ۲۰ دانشجوی علوم کامپیوتر و مهندس نرم‌افزار در طی حدود ۳۰۰۰ نفر-ساعت در طول دو ماه تدوین شده است.

ارزیابی از یک سیستم «نقطه بازرسی» استفاده می‌کند: هر وظیفه دارای نقاط عطف میانی است که بخشی از امتیاز کل را شامل می‌شود، به علاوه پاداشی برای تکمیل کامل. ارزیاب‌ها یا قطعی هستند (بررسی محتوای فایل، خروجی‌های کد، وضعیت محیط) یا مبتنی بر LLM (ارزیابی متن‌های آزاد). تمام مدل‌ها تحت چارچوب عامل OpenHands اجرا می‌شوند که اجرای کد، پیمایش وب و دسترسی به ترمینال را از طریق یک رابط قابل تنظیم واحد فراهم می‌کند.

ایده‌های کلیدی

  • مدل Gemini-2.5-Pro با ۳۰.۳٪ تکمیل کامل و ۳۹.۳٪ امتیاز جزئی پیشتاز است؛ Claude-3.7-Sonnet با ۲۶.۳٪ / ۳۶.۴٪ در رتبه بعدی قرار دارد؛ GPT-4o تنها به ۸.۶٪ / ۱۶.۷٪ می‌رسد و Llama-3.1-405B به ۷.۴٪ دست می‌یابد.
  • بهترین مدل به‌طور متوسط حدود ۲۷ گام عاملی برمی‌دارد و بیش از ۴ دلار برای هر وظیفه هزینه دارد؛ حتی برای وظایفی که نویسندگان آن‌ها را ساده‌تر از پیچیدگی واقعی محیط کار توصیف می‌کنند.
  • وظایف مالی در کنار امور اداری و علوم داده در زمره سخت‌ترین دسته‌ها هستند؛ وظایف SDE با وجود نیاز به دانش فنی تخصصی‌تر، به‌طور قابل‌اطمینانی ساده‌ترین‌ها هستند.
  • سه حالت شکست غالب هستند: پیمایش رابط‌های کاربری وب پیچیده (به‌ویژه مجموعه آفیس OwnCloud)، ناتوانی در استفاده موثر از پیام‌های همکاران («کمبود مهارت‌های اجتماعی»)، و رها کردن وظایف اداری چندسندی که نیاز به ارجاع متقابل خسته‌کننده دارند.
  • نویسندگان برتری در SDE را مستقیماً به سوگیری داده‌های آموزشی نسبت می‌دهند: پیش‌آموزش LLM به دلیل بنچمارک‌های برجسته و سیگنال‌های آموزشی عمومی فراوان، به شدت به سمت کد و داده‌های GitHub متمایل است، بنابراین مدل‌ها در وظایف نرم‌افزاری بسیار بهتر از جریان‌های کاری HR یا مالی تعمیم می‌یابند.

چه مواردی درست هستند — و چه مواردی نه

طراحی محیط واقعاً تحسین‌برانگیز است. اجرای نسخه‌های واقعی GitLab، OwnCloud و RocketChat به جای نسخه‌های شبیه‌سازی شده ساده، به این معنی است که عامل‌ها با پیچیدگی واقعی UI روبرو هستند؛ پاپ‌آپ‌های واقعی، فرآیندهای احراز هویت و موارد خاص. امتیازدهی جزئی مبتنی بر نقطه بازرسی نیز تصمیم درستی است: موفقیت یا شکست باینری باعث می‌شد اکثر وظایف به‌طور یکنواخت ناامیدکننده به نظر برسند و پیشرفت‌های واقعی عامل‌ها نادیده گرفته شود.

با این حال، چندین نقطه ضعف قابل ذکر است. بحرانی‌ترین مورد این است که هیچ خط مبنایی برای عملکرد انسانی وجود ندارد. نویسندگان به این موضوع اذعان دارند؛ محدودیت منابع مانع از جمع‌آوری زمان‌بندی یا نرخ موفقیت انسانی شده است، که یعنی ما معیاری برای مقایسه نداریم. تکمیل ۳۰ درصدی توسط عامل بد به نظر می‌رسد، اما بدون دانستن اینکه آیا یک انسان ۲۰ دقیقه یا ۳ ساعت برای همان کار وقت صرف می‌کند، یا اینکه آیا برخی وظایف ذاتاً مبهم هستند، تفسیر این عدد دشوار است.

دسته امور مالی تنها ۱۲ وظیفه دارد. این تعداد برای نتیجه‌گیری قوی درباره شکست‌های خاص مالی بسیار کم است. آیا عامل‌ها به دلیل ماهیت استدلال مالی ضعیف‌تر هستند، یا به این دلیل که وظایف مالی به طور تصادفی شامل پیمایش اسناد بیشتر در OwnCloud بوده‌اند؟ مقاله نمی‌تواند در این مقیاس تفکیک قائل شود و نویسندگان هم تلاشی برای آن نکرده‌اند.

نویسندگان همچنین اعتراف می‌کنند که وظایف «به دلیل نیاز به ارزیابی خودکار با برنامه‌ها و موارد تست، عموماً در سمت ساده‌تر قرار دارند». سخت‌ترین وظایف واقعی حسابداری یا مالی (مانند تهیه تطبیق حساب پایان سال از داده‌های منبع ناهماهنگ، شناسایی موارد عدم انطباق با قوانین و مقررات، یا تهیه گزارش مدیریت در چندین دوره دفتر کل) اساساً برای ارزیابی خودکار غیرممکن هستند. این بنچمارک احتمالاً دقیقاً از همان وظایفی که برای عامل‌های مالی خودمختار بیشترین اهمیت را دارند، نمونه‌برداری کمی انجام داده است.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

نتایج اینجا به شکلی مفید تامل‌برانگیز هستند. نرخ تکمیل ۳۰ درصدی در وظایفی که نویسندگان آن‌ها را ساده‌سازی شده می‌نامند، به این معنی است که عامل‌های خودمختار به هیچ وجه برای جریان‌های کاری واقعی حسابداری آماده نیستند. دسته امور مالی به‌طور خاص ضعیف است و حالت‌های شکست اصلی (رابط‌های کاربری پیچیده، بازیابی اسناد چندگانه، اختلال در ارتباط با همتایان انسانی) دقیقاً همان مهارت‌هایی هستند که یک عامل اتوماسیون Beancount به آن‌ها نیاز دارد: استخراج داده‌ها از مخازن اسناد، تطبیق تراکنش‌ها در گزارش‌های مختلف و پرسیدن سوالات شفاف‌سازی پیش از ثبت نهایی داده‌ها.

هزینه ۴ دلاری برای هر وظیفه در بهترین مدل، یک عامل بازدارنده است. با این نرخ، اجرای یک عامل برای بستن حساب‌های روتین پایان ماه که شامل ده‌ها وظیفه فرعی است، صدها دلار هزینه خواهد داشت، آن هم بدون تضمین قابلیت اطمینان. الگوی Gemini-2.0-Flash در پذیرش سریع شکست (کسب امتیاز جزئی ۱۹.۰٪ با هزینه کمتر از ۱ دلار برای هر وظیفه) نشان می‌دهد که ارزش مهندسی واقعی در دانستن این است که چه زمانی باید متوقف شد و کار را به انسان ارجاع داد، نه اینکه توکن‌ها را در یک مسیر شکست‌خورده هدر داد.

همکاران شبیه‌سازی شده (NPCها) یک ایده جالب هستند که مستقیماً با محدودیت واقعی Beancount مطابقت دارد: عامل‌هایی که بازخورد کاربر را نادیده می‌گیرند و با فرضیات اشتباه پیش می‌روند، خطرناک‌تر از عامل‌هایی هستند که متوقف شده و سوال می‌پرسند. یافته بنچمارک مبنی بر اینکه مدل‌های فعلی در استخراج اطلاعات مفید از پیام‌های همکاران شکست می‌خورند، باید یک ورودی طراحی مستقیم برای هر عامل ثبت‌کننده‌ای باشد که در میانه کار با یک حسابدار انسانی تعامل دارد.

برای مطالعه بیشتر

  • OpenHands: An Open Platform for AI Software Developers as Generalist Agents — چارچوب عاملی که زیربنای TheAgentCompany است؛ arXiv:2407.16741، ICLR 2025. درک معماری CodeAct + browsing در OpenHands روشن می‌کند که کدام قابلیت‌های عاملی پایه هستند و TheAgentCompany واقعاً چه چیزی را آزمایش می‌کند.
  • DocFinQA: A Long-Context Financial Reasoning Dataset — این مجموعه ۷,۴۳۷ سوال FinQA را به پرونده‌های کامل SEC با میانگین ۱۲۳ هزار کلمه گسترش می‌دهد؛ arXiv:2401.06915، ACL 2024. این کار مستقیماً استدلال مالی در اسناد طولانی را آزمایش می‌کند که ۱۲ وظیفه مالی TheAgentCompany نمی‌توانند به درستی نمونه‌برداری کنند.
  • Evaluation and Benchmarking of LLM Agents: A Survey — arXiv:2507.21504. یک بررسی در سال ۲۰۲۵ از چشم‌انداز ارزیابی عامل‌ها که TheAgentCompany را در کنار WebArena، OSWorld و SWE-bench قرار می‌دهد و بررسی می‌کند که چگونه انتخاب‌های طراحی بنچمارک، نتیجه‌گیری‌های ما درباره توانایی عامل‌ها را شکل می‌دهند.