AgentBench: ارزیابی مدلهای زبانی بزرگ به عنوان عامل — درسهایی برای قابلیت اطمینان هوش مصنوعی در امور مالی
وقتی از خودم میپرسم که یک عامل بازنویسی Beancount واقعاً برای عملکرد قابل اعتماد به چه چیزی نیاز دارد، پاسخ «تولید متن» نیست — بلکه «انجام مجموعهای از اقدامات در یک محیط ساختاریافته بدون خروج از مسیر» است. AgentBench (لیو و همکاران، دانشگاه چینهوا، ICLR 2024) یکی از اولین تلاشهای جدی برای اندازهگیری این توانمندی در مقیاس وسیع است و اعداد حاصل از نمای کلی سال ۲۰۲۳ همچنان حاوی درسهایی ارزشمند برای استخراج هستند.
مقاله
AgentBench که توسط شیائو لیو و ۲۱ همکار دیگر در دانشگاه چینهوا نوشته شده، هشت محیط را تعریف میکند که برای تست فشار بر مدلهای زبانی بزرگ به عنوان عاملهای تعاملی و نه صرفاً تولیدکنندههای غیرفعال متن طراحی شدهاند. پنج محیط اصلی هستند: OS (تعامل با bash)، پایگاه داده (تولید SQL و بازیابی خطا)، گراف دانش (پرسوجوهای ساختاریافته مبتنی بر ابزار)، بازی کارتی دیجیتال (رقابت استراتژیک چند مرحلهای) و معماهای تفکر جانبی (گفتگوی استنتاجی). سه محیط دیگر از مجموعهدادههای قبلی اقتباس شدهاند: خانهداری از ALFWorld، خرید آنلاین از WebShop و مرور وب از Mind2Web. این مقاله ۲۷ مدل — شامل مدلهای تجاری API و مدلهای متنباز تا ۷۰ میلیارد پارامتر — را در حدود ۴۰۰۰ نسل در بخش توسعه (dev-split) و ۱۳۰۰۰ نسل در بخش آزمون (test-split) ارزیابی کرده و هم نرخ موفقیت در هر محیط و هم یک امتیاز کلی ترکیبی را گزارش میدهد.
ایدههای کلیدی
- مدل GPT-4 با امتیاز کلی ۴.۰۱ پیشتاز است. Claude-2 امتیاز ۲.۴۹ و GPT-3.5-turbo امتیاز ۲.۳۲ را کسب کردند. CodeLlama-34B که قویترین مدل متنباز در زمان ارائه مقاله بود، تنها ۰.۹۶ امتیاز گرفت. میانگین امتیاز مدلهای مبتنی بر API برابر ۲.۲۴ در مقابل ۰.۴۲ برای مدلهای متنباز است.
- مدل GPT-4 در بخش سیستمعامل (OS) امتیاز ۴۲.۴٪، در پایگاه داده ۳۲.۰٪ و در خانهداری ۷۸.۰٪ را کسب کرد — این پراکندگی نشان میدهد کدام محیطها به پیروی از دستورات پاداش میدهند و کدام یک به استدلال ساختاریافته.
- «تجاوز از حد وظیفه» (Task Limit Exceeded) حالت شکست غالب است: ۶۷.۹٪ از شکستهای گراف دانش قبل از حل وظیفه به بودجه مراحل پایان رسیدند. این یک شکست در استدلال بلندمدت است، نه لزوماً کمبود دانش.
- خطاهای انطباق با قالببندی مسئول ۵۳.۳٪ از شکستهای وظایف پایگاه داده هستند — عامل SQLهایی با نحو غلط تولید میکند یا پرسوجوها را در متنی میپیچد که ارزیاب قادر به تجزیه (parse) آن نیست.
- انتخاب اقدام نامعتبر عامل ۶۴.۱٪ از شکستهای بخش خانهداری است — عامل اقدامی را نام میبرد که در وضعیت فعلی در دسترس نیست.
- آموزش روی کد «تأثیرات دوسوگرایی در وظایف مختلف» دارد: در محیطهای پیرو رویه کمک میکند اما میتواند به استدلال عمومی در محیطهای مبتنی بر گفتگو آسیب بزند.
چه چیزی همچنان معتبر است — و چه چیزی نیست
انتخاب اصلی طراحی — ارزیابی تعاملی، چند مرحلهای و چند محیطی — صحیح است و همچنان کمتر از حد لازم به آن توجه میشود. اکثر بنچمارکهای مدل زبانی هنوز کیفیت تولید در یک مرحله (single-turn) را اندازهگیری میکنند؛ AgentBench به درستی تاکید دارد که عاملها باید تا زمانی که وظیفه انجام شود یا بودجه تمام شود، به تصمیمگیری ادامه دهند.
با این حال، این نمای کلی به شکلی که اهمیت دارد، قدیمی شده است. شکاف بین GPT-4 (۴.۰۱) و بهترین مدل متنباز (۰.۹۶) در اواسط سال ۲۰۲۳ نگرانکننده به نظر میرسید، اما تا سال ۲۰۲۵ تا حد زیادی بسته شده است. مدلهایی مانند Llama 3.1 70B یا Qwen 2.5 72B اکنون از سدهای پیروی از دستورات و انطباق با قالب عبور میکنند که دو سال پیش موانع جدیدی بودند. خواندن این مقاله به عنوان مدرکی بر اینکه «متنباز نمیتواند وظایف عاملی را انجام دهد» اشتباه است؛ اما خواندن آن به عنوان مدرکی بر اینکه «انطباق با قالب و تداوم در افق بلندمدت مسائل دشواری هستند» همچنان معتبر است.
همچنین تنشی بین وسعت و عمق وجود دارد. هشت محیط جامع به نظر میرسد، اما هر کدام نسبتاً کمعمق هستند. WebArena (ژو و همکاران، ۲۰۲۴) به تنهایی مرور وب را با ۸۱۲ وظیفه الگوی بلندمدت پوشش میدهد؛ OSWorld (شی و همکاران، ۲۰۲۴) ۳۶۹ وظیفه واقعی دسکتاپ را در اوبونتو و ویندوز بنچمارک میکند. AgentBench میتواند به شما سیگنالی در محیطهای مختلف بدهد اما زمانی که محیط مورد نظر خود را شناسایی کردید، جایگزین بنچمارکهای تخصصی آن حوزه نخواهد بود.
طبقهبندی حالات شکست در جدول ۴ احتمالاً ماندگارترین دستاورد این مقاله است. نویسندگان شکستها را به «تجاوز از حد وظیفه»، «خطای قالببندی»، «اقدام نامعتبر» و چند مورد دیگر تجزیه میکنند. اینها باگهای پیادهسازی نیستند — بلکه نقاط ضعف ساختاری در نحوه حفظ وضعیت توسط مدلهای زبانی، ردیابی اقدامات موجود و تولید خروجی قابل تجزیه تحت فشار گفتگوهای چند مرحلهای هستند. هر سیستم عاملی جدی باید به آنها بپردازد.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
سه حالت شکست غالب مستقیماً با آنچه انتظار دارم یک عامل بازنویسی Beancount را با مشکل مواجه کند، مطابقت دارند.
تجاوز از حد وظیفه همان حالت شکست در مغایرتگیری دفتر کل (ledger reconciliation) است. مغایرتگیری یک دوره بستن حسابهای چندگانه مستلزم بررسی ماندههای اول دوره، تطبیق بدهکار و بستانکار، شناسایی ناهماهنگیها و پیشنهاد اصلاحات است — زنجیرهای که به راحتی میتواند ۱۰ تا ۲۰ مرحله طول بکشد. عاملی که در میانه زنجیره به سقف کانتکست یا بودجه مراحل خود برسد و تسلیم شود، فقط به آرامی شکست نمیخورد؛ بلکه میتواند دفتر کل را در وضعیتی نیمهتغییریافته رها کند.
خطای قالببندی حالت شکست در ثبت تراکنش است. Beancount نحو (syntax) سختگیرانهای دارد: یک ثبت آرتیکل (posting) بدشکل (واحد پول مفقود، تورفتگی غلط، فلگ نامعتبر) یک خطای تجزیه (parse error) است که فایل را خراب میکند. عاملی که در اطراف خروجی Beancount خود متن توضیحی تولید میکند، یا نحوی را تولید میکند که درست به نظر میرسد اما در قالب اشتباه است، بیفایده است. این همان مشکل اصلی مقاله CRITIC است که در یک دامنه سختگیرانهتر اعمال شده است.
اقدام نامعتبر مشکل امنیت بازنویسی (write-back safety) است. یک عامل Beancount که روی یک دفتر کل واقعی کار میکند، مجموعه محدودی از عملیات ایمن دارد: الحاق یک تراکنش، اصلاح یک فلگ، جابجایی یک آرتیکل. توهم زدنِ اقدامی خارج از آن مجموعه — مثلاً حذف حسابی که هنوز پوزیشنهای باز دارد — یک شکست در صحت عملکرد است که ممکن است تا زمان حسابرسی قابل شناسایی نباشد.
یافتهی «آموزش کد تأثیرات دوسوگرایی دارد» نیز مرتبط است. بازنویسی Beancount بیشتر به تولید کد نزدیک است تا بازیابی دانش، بنابراین مدلی که از قبل روی کد آموزش دیده باید انتخاب مناسبی باشد. اما اگر آموزش کد باعث کاهش توانایی پیروی از گفتگو در تنظیمات چند مرحلهای شود، یک ارزیابی ترکیبی (مانند AgentBench) برای آشکار کردن این سبکسنگین کردنها قبل از استقرار ضروری است.
چه چیزی را بعد از این بخوانیم
- WebArena (ژو و همکاران، ۲۰۲۴؛ arXiv:2307.13854) — ۸۱۲ وظیفه مرور وب در یک محیط مرورگر زنده؛ پیگیری عمیقتری بر بخش وب AgentBench.
- OSWorld (شی و همکاران، ۲۰۲۴؛ NeurIPS 2024) — بنچمارک کامل محیط دسکتاپ شامل وظایف سیستم فایل و رابط گرافیکی؛ محیط OS این پروژه جانشین مستقیم و عمیقتری برای بخش OS در AgentBench است.
- TAU-bench (یائو و همکاران، ۲۰۲۴) — ارزیابی عاملها در محیطهای API خردهفروشی و هواپیمایی با استفاده واقعی از ابزار و شبیهسازی کاربر؛ نزدیکترین بنچمارک منتشر شده به تنظیمات «دفتر کل به عنوان محیط» در Beancount.
