پلتفرم EnterpriseArena یازده مدل زبانی بزرگ را در یک شبیهسازی ۱۳۲ ماهه مدیریت مالی (CFO) قرار میدهد تا بقا، ارزش نهایی و نرخ بستن دفاتر آنها را بررسی کند. تنها مدل Qwen3.5-9B در ۸۰٪ موارد جان سالم به در میبرد؛ GPT-5.4 و DeepSeek-V3.1 به نرخ بقای ۰٪ میرسند. خبرگان انسانی به بقای ۱۰۰٪ با ۵ برابر ارزش نهایی دست مییابند. گلوگاه اصلی: مدلهای زبانی در ۸۰٪ مواقع از تطبیق دفتر کل چشمپوشی میکنند و بر اساس وضعیت مالی منقضی عمل میکنند.
بنچمارک WildToolBench (ICLR 2026) ۵۷ مدل زبانی بزرگ را بر روی ۱۰۲۴ وظیفه استخراج شده از رفتار واقعی کاربران ارزیابی میکند — هیچ مدلی از دقت ۱۵٪ در سطح جلسه فراتر نمیرود، و سازماندهی ترکیبی، نیت پنهان و انتقالهای دستورالعمل سه مورد از جدیترین حالتهای شکست هستند.
بنچمارک JSONSchemaBench تعداد ۹,۵۵۸ شمای JSON واقعی را در برابر شش چارچوب رمزگشایی محدود شده آزمایش میکند و درمییابد که پیچیدگی شِما باعث فروپاشی پوشش از ۸۶٪ در شماهای ساده به ۳٪ در شماهای پیچیده میشود؛ در حالی که XGrammar ۳۸ خروجی غیرمنطبق را بدون اطلاع صادر میکند و هیچ چارچوبی تمام ۴۵ دستهبندی ویژگی JSON Schema را پوشش نمیدهد.
FinMCP-Bench شش مدل LLM را در ۶۱۳ وظیفه واقعی استفاده از ابزار مالی که توسط ۶۵ سرور MCP پشتیبانی میشوند، ارزیابی میکند — بهترین مدل در وظایف چند نوبتی امتیاز ۳.۰۸٪ تطبیق دقیق را کسب کرد که نشاندهنده فروپاشی عملکرد ۲۰ برابری از سناریوهای تکابزاری به چند نوبتی است.
بنچمارک FinTrace، ۱۳ مدل زبانی بزرگ را در ۸۰۰ مسیر وظایف مالی با حاشیهنویسی متخصص بر اساس ۹ معیار ارزیابی میکند و دریافت که مدلهای پیشرو در انتخاب ابزار به نتایج قوی (F1 ~0.9) میرسند، اما در بهرهوری اطلاعات — مرحلهای که عوامل بر روی نتایج ابزارها استدلال میکنند — تنها امتیاز ۳.۲۳ از ۵ را کسب میکنند.
FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرسوجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک میزند — و به این نتیجه میرسد که نرخ فراخوانی محافظهکارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه میدهد، در حالی که عدم تطابق قصد در تمام مدلهای آزمایششده بیش از ۵۰٪ است.
OmniEval (EMNLP 2025) سیستمهای RAG را در ۵ نوع تسک × ۱۶ موضوع مالی با استفاده از ۱۱.۴ هزار مورد تست تولیدشده خودکار بنچمارک میکند. بهترین سیستمها تنها به ۳۶٪ دقت عددی دست مییابند — مدرکی عینی مبنی بر اینکه خط لولههای RAG پیش از نوشتن در دفترکلهای مالی ساختاریافته، به لایههای اعتبارسنجی نیاز دارند.
یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش، سوگیری مکانی را از وزنهای توجه مدل زبانی بزرگ کسر میکند و تا ۱۵ واحد درصد از دقت RAG را در زمانی که اسناد بازیابی شده در میانه بافت مدفون شدهاند، بازیابی میکند — و این موضوع چه معنایی برای خط لولههای عاملهای تخصصی مالی دارد.
سیستم ReDAct بهطور پیشفرض یک مدل کوچک را اجرا میکند و تنها زمانی به یک مدل گرانقیمت ارجاع میدهد که پرپلکسیتی در سطح توکن نشاندهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفهجویی در هزینهها میشود؛ الگویی که مستقیماً برای عاملهای دستهبندی تراکنش در Beancount قابل استفاده است.
OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأملبرانگیز که نشان میدهد عاملهای هوش مصنوعی امروزه چه کارهایی را میتوانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدودهی دقیق باشند.