پرش به محتوای اصلی

AgentBench: ارزیابی مدل‌های زبانی بزرگ به عنوان عامل — درس‌هایی برای قابلیت اطمینان هوش مصنوعی در امور مالی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

وقتی از خودم می‌پرسم که یک عامل بازنویسی Beancount واقعاً برای عملکرد قابل اعتماد به چه چیزی نیاز دارد، پاسخ «تولید متن» نیست — بلکه «انجام مجموعه‌ای از اقدامات در یک محیط ساختاریافته بدون خروج از مسیر» است. AgentBench (لیو و همکاران، دانشگاه چینهوا، ICLR 2024) یکی از اولین تلاش‌های جدی برای اندازه‌گیری این توانمندی در مقیاس وسیع است و اعداد حاصل از نمای کلی سال ۲۰۲۳ همچنان حاوی درس‌هایی ارزشمند برای استخراج هستند.

مقاله

2026-05-06-agentbench-evaluating-llms-as-agents

AgentBench که توسط شیائو لیو و ۲۱ همکار دیگر در دانشگاه چینهوا نوشته شده، هشت محیط را تعریف می‌کند که برای تست فشار بر مدل‌های زبانی بزرگ به عنوان عامل‌های تعاملی و نه صرفاً تولیدکننده‌های غیرفعال متن طراحی شده‌اند. پنج محیط اصلی هستند: OS (تعامل با bash)، پایگاه داده (تولید SQL و بازیابی خطا)، گراف دانش (پرس‌وجوهای ساختاریافته مبتنی بر ابزار)، بازی کارتی دیجیتال (رقابت استراتژیک چند مرحله‌ای) و معماهای تفکر جانبی (گفتگوی استنتاجی). سه محیط دیگر از مجموعه‌داده‌های قبلی اقتباس شده‌اند: خانه‌داری از ALFWorld، خرید آنلاین از WebShop و مرور وب از Mind2Web. این مقاله ۲۷ مدل — شامل مدل‌های تجاری API و مدل‌های متن‌باز تا ۷۰ میلیارد پارامتر — را در حدود ۴۰۰۰ نسل در بخش توسعه (dev-split) و ۱۳۰۰۰ نسل در بخش آزمون (test-split) ارزیابی کرده و هم نرخ موفقیت در هر محیط و هم یک امتیاز کلی ترکیبی را گزارش می‌دهد.

ایده‌های کلیدی

  • مدل GPT-4 با امتیاز کلی ۴.۰۱ پیشتاز است. Claude-2 امتیاز ۲.۴۹ و GPT-3.5-turbo امتیاز ۲.۳۲ را کسب کردند. CodeLlama-34B که قوی‌ترین مدل متن‌باز در زمان ارائه مقاله بود، تنها ۰.۹۶ امتیاز گرفت. میانگین امتیاز مدل‌های مبتنی بر API برابر ۲.۲۴ در مقابل ۰.۴۲ برای مدل‌های متن‌باز است.
  • مدل GPT-4 در بخش سیستم‌عامل (OS) امتیاز ۴۲.۴٪، در پایگاه داده ۳۲.۰٪ و در خانه‌داری ۷۸.۰٪ را کسب کرد — این پراکندگی نشان می‌دهد کدام محیط‌ها به پیروی از دستورات پاداش می‌دهند و کدام یک به استدلال ساختاریافته.
  • «تجاوز از حد وظیفه» (Task Limit Exceeded) حالت شکست غالب است: ۶۷.۹٪ از شکست‌های گراف دانش قبل از حل وظیفه به بودجه مراحل پایان رسیدند. این یک شکست در استدلال بلندمدت است، نه لزوماً کمبود دانش.
  • خطاهای انطباق با قالب‌بندی مسئول ۵۳.۳٪ از شکست‌های وظایف پایگاه داده هستند — عامل SQLهایی با نحو غلط تولید می‌کند یا پرس‌وجوها را در متنی می‌پیچد که ارزیاب قادر به تجزیه (parse) آن نیست.
  • انتخاب اقدام نامعتبر عامل ۶۴.۱٪ از شکست‌های بخش خانه‌داری است — عامل اقدامی را نام می‌برد که در وضعیت فعلی در دسترس نیست.
  • آموزش روی کد «تأثیرات دوسوگرایی در وظایف مختلف» دارد: در محیط‌های پیرو رویه کمک می‌کند اما می‌تواند به استدلال عمومی در محیط‌های مبتنی بر گفتگو آسیب بزند.

چه چیزی همچنان معتبر است — و چه چیزی نیست

انتخاب اصلی طراحی — ارزیابی تعاملی، چند مرحله‌ای و چند محیطی — صحیح است و همچنان کمتر از حد لازم به آن توجه می‌شود. اکثر بنچمارک‌های مدل زبانی هنوز کیفیت تولید در یک مرحله (single-turn) را اندازه‌گیری می‌کنند؛ AgentBench به درستی تاکید دارد که عامل‌ها باید تا زمانی که وظیفه انجام شود یا بودجه تمام شود، به تصمیم‌گیری ادامه دهند.

با این حال، این نمای کلی به شکلی که اهمیت دارد، قدیمی شده است. شکاف بین GPT-4 (۴.۰۱) و بهترین مدل متن‌باز (۰.۹۶) در اواسط سال ۲۰۲۳ نگران‌کننده به نظر می‌رسید، اما تا سال ۲۰۲۵ تا حد زیادی بسته شده است. مدل‌هایی مانند Llama 3.1 70B یا Qwen 2.5 72B اکنون از سدهای پیروی از دستورات و انطباق با قالب عبور می‌کنند که دو سال پیش موانع جدیدی بودند. خواندن این مقاله به عنوان مدرکی بر اینکه «متن‌باز نمی‌تواند وظایف عاملی را انجام دهد» اشتباه است؛ اما خواندن آن به عنوان مدرکی بر اینکه «انطباق با قالب و تداوم در افق بلندمدت مسائل دشواری هستند» همچنان معتبر است.

همچنین تنشی بین وسعت و عمق وجود دارد. هشت محیط جامع به نظر می‌رسد، اما هر کدام نسبتاً کم‌عمق هستند. WebArena (ژو و همکاران، ۲۰۲۴) به تنهایی مرور وب را با ۸۱۲ وظیفه الگوی بلندمدت پوشش می‌دهد؛ OSWorld (شی و همکاران، ۲۰۲۴) ۳۶۹ وظیفه واقعی دسکتاپ را در اوبونتو و ویندوز بنچمارک می‌کند. AgentBench می‌تواند به شما سیگنالی در محیط‌های مختلف بدهد اما زمانی که محیط مورد نظر خود را شناسایی کردید، جایگزین بنچمارک‌های تخصصی آن حوزه نخواهد بود.

طبقه‌بندی حالات شکست در جدول ۴ احتمالاً ماندگارترین دستاورد این مقاله است. نویسندگان شکست‌ها را به «تجاوز از حد وظیفه»، «خطای قالب‌بندی»، «اقدام نامعتبر» و چند مورد دیگر تجزیه می‌کنند. این‌ها باگ‌های پیاده‌سازی نیستند — بلکه نقاط ضعف ساختاری در نحوه حفظ وضعیت توسط مدل‌های زبانی، ردیابی اقدامات موجود و تولید خروجی قابل تجزیه تحت فشار گفتگوهای چند مرحله‌ای هستند. هر سیستم عاملی جدی باید به آن‌ها بپردازد.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

سه حالت شکست غالب مستقیماً با آنچه انتظار دارم یک عامل بازنویسی Beancount را با مشکل مواجه کند، مطابقت دارند.

تجاوز از حد وظیفه همان حالت شکست در مغایرت‌گیری دفتر کل (ledger reconciliation) است. مغایرت‌گیری یک دوره بستن حساب‌های چندگانه مستلزم بررسی مانده‌های اول دوره، تطبیق بدهکار و بستانکار، شناسایی ناهماهنگی‌ها و پیشنهاد اصلاحات است — زنجیره‌ای که به راحتی می‌تواند ۱۰ تا ۲۰ مرحله طول بکشد. عاملی که در میانه زنجیره به سقف کانتکست یا بودجه مراحل خود برسد و تسلیم شود، فقط به آرامی شکست نمی‌خورد؛ بلکه می‌تواند دفتر کل را در وضعیتی نیمه‌تغییریافته رها کند.

خطای قالب‌بندی حالت شکست در ثبت تراکنش است. Beancount نحو (syntax) سخت‌گیرانه‌ای دارد: یک ثبت آرتیکل (posting) بدشکل (واحد پول مفقود، تورفتگی غلط، فلگ نامعتبر) یک خطای تجزیه (parse error) است که فایل را خراب می‌کند. عاملی که در اطراف خروجی Beancount خود متن توضیحی تولید می‌کند، یا نحوی را تولید می‌کند که درست به نظر می‌رسد اما در قالب اشتباه است، بی‌فایده است. این همان مشکل اصلی مقاله CRITIC است که در یک دامنه سخت‌گیرانه‌تر اعمال شده است.

اقدام نامعتبر مشکل امنیت بازنویسی (write-back safety) است. یک عامل Beancount که روی یک دفتر کل واقعی کار می‌کند، مجموعه محدودی از عملیات ایمن دارد: الحاق یک تراکنش، اصلاح یک فلگ، جابجایی یک آرتیکل. توهم زدنِ اقدامی خارج از آن مجموعه — مثلاً حذف حسابی که هنوز پوزیشن‌های باز دارد — یک شکست در صحت عملکرد است که ممکن است تا زمان حسابرسی قابل شناسایی نباشد.

یافته‌ی «آموزش کد تأثیرات دوسوگرایی دارد» نیز مرتبط است. بازنویسی Beancount بیشتر به تولید کد نزدیک است تا بازیابی دانش، بنابراین مدلی که از قبل روی کد آموزش دیده باید انتخاب مناسبی باشد. اما اگر آموزش کد باعث کاهش توانایی پیروی از گفتگو در تنظیمات چند مرحله‌ای شود، یک ارزیابی ترکیبی (مانند AgentBench) برای آشکار کردن این سبک‌سنگین کردن‌ها قبل از استقرار ضروری است.

چه چیزی را بعد از این بخوانیم

  • WebArena (ژو و همکاران، ۲۰۲۴؛ arXiv:2307.13854) — ۸۱۲ وظیفه مرور وب در یک محیط مرورگر زنده؛ پیگیری عمیق‌تری بر بخش وب AgentBench.
  • OSWorld (شی و همکاران، ۲۰۲۴؛ NeurIPS 2024) — بنچمارک کامل محیط دسکتاپ شامل وظایف سیستم فایل و رابط گرافیکی؛ محیط OS این پروژه جانشین مستقیم و عمیق‌تری برای بخش OS در AgentBench است.
  • TAU-bench (یائو و همکاران، ۲۰۲۴) — ارزیابی عامل‌ها در محیط‌های API خرده‌فروشی و هواپیمایی با استفاده واقعی از ابزار و شبیه‌سازی کاربر؛ نزدیک‌ترین بنچمارک منتشر شده به تنظیمات «دفتر کل به عنوان محیط» در Beancount.