FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزرگ برای RAG چندوجهی با استنادهای بصری در حوزه مالی است که بیش از ۱۱۲ هزار صفحه سند و ۱۳۹۴ جفت سوال و جواب حاشیهنویسی شده توسط انسان را پوشش میدهد. مدلهای برتر تنها به ۲۰ تا ۶۱ درصد فراخوانی استناد در سطح بلوک دست مییابند و بازیابی چندوجهی تقریباً ۵۰ درصد از بازیابی صرفاً متنی بهتر عمل میکند.
پلتفرم EnterpriseArena یازده مدل زبانی بزرگ را در یک شبیهسازی ۱۳۲ ماهه مدیریت مالی (CFO) قرار میدهد تا بقا، ارزش نهایی و نرخ بستن دفاتر آنها را بررسی کند. تنها مدل Qwen3.5-9B در ۸۰٪ موارد جان سالم به در میبرد؛ GPT-5.4 و DeepSeek-V3.1 به نرخ بقای ۰٪ میرسند. خبرگان انسانی به بقای ۱۰۰٪ با ۵ برابر ارزش نهایی دست مییابند. گلوگاه اصلی: مدلهای زبانی در ۸۰٪ مواقع از تطبیق دفتر کل چشمپوشی میکنند و بر اساس وضعیت مالی منقضی عمل میکنند.
FinMCP-Bench شش مدل LLM را در ۶۱۳ وظیفه واقعی استفاده از ابزار مالی که توسط ۶۵ سرور MCP پشتیبانی میشوند، ارزیابی میکند — بهترین مدل در وظایف چند نوبتی امتیاز ۳.۰۸٪ تطبیق دقیق را کسب کرد که نشاندهنده فروپاشی عملکرد ۲۰ برابری از سناریوهای تکابزاری به چند نوبتی است.
یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش، سوگیری مکانی را از وزنهای توجه مدل زبانی بزرگ کسر میکند و تا ۱۵ واحد درصد از دقت RAG را در زمانی که اسناد بازیابی شده در میانه بافت مدفون شدهاند، بازیابی میکند — و این موضوع چه معنایی برای خط لولههای عاملهای تخصصی مالی دارد.
بنچمارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی میکند. نتایج نشاندهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.
Voyager، یک عامل Minecraft مبتنی بر GPT-4 از NVIDIA و Caltech، نشان میدهد که یک کتابخانه کد مهارت پایدار، یادگیری مادامالعمر واقعی را بدون نیاز به fine-tuning ممکن میسازد — کشف ۳.۳ برابر موارد بیشتری نسبت به مدلهای قبلی. این الگو مستقیماً با خودکارسازی طولانیمدت دفتر کل Beancount مطابقت دارد، هرچند دقت مالی مستلزم لایههای میانی (staging) است که محیطهای بازی هرگز به آنها نیاز ندارند.
AutoGen (وو و همکاران، ۲۰۲۳) یک چارچوب گفتگوی چند-عاملی را معرفی میکند که در آن عاملهای مبتنی بر مدلهای زبانی بزرگ (LLM) برای تکمیل وظایف پیام مبادله میکنند؛ یک پیکربندی دو-عاملی دقت بنچمارک MATH را از ۵۵٪ به ۶۹٪ افزایش میدهد و یک عامل اختصاصی SafeGuard تشخیص کدهای ناامن را تا ۳۵ واحد F1 بهبود میبخشد — یافتههایی که مستقیماً در ساخت خطلولههای اتوماسیون امن و ماژولار Beancount کاربرد دارند.
CodeAct (ICML 2024) فراخوانی ابزار مبتنی بر JSON را با کدهای پایتون قابل اجرا جایگزین میکند که نرخ موفقیت عوامل GPT-4 را در وظایف چند-ابزاری حدود ۲۰ درصد بهبود بخشیده و گامهای تعاملی را ۳۰٪ کاهش میدهد — این موضوع پیامدهای مستقیمی برای ساخت عوامل مغایرتگیری قابل اعتماد در Beancount دارد.
سیستم CRITIC (کنفرانس ICLR 2024) با تکیه بر سیگنالهای ابزارهای خارجی برای بازنگری در مدلهای زبانی بزرگ، به بهبود ۷.۷ در شاخص F1 در پاسخگویی به سوالات دامنه آزاد و کاهش ۷۹.۲ درصدی سمیت محتوا دست یافت؛ یک حلقه «تایید و سپس اصلاح» که مستقیماً با امنیت ثبت اطلاعات در عاملهای مالی Beancount مطابقت دارد.
مقاله ReAct (Yao و همکاران، ICLR 2023) استدلال زنجیره اندیشه را با اقدامات ابزاری در یک مسیر واحد ادغام میکند و در تأیید واقعیت و یادگیری تقلیدی در وظایف تجسمیافته تا ۳۴ درصد از CoT خالص بهتر عمل میکند. این تحلیل به بررسی حالتهای شکست مقاله — حواسپرتی ناشی از جستجو و خطاهای انباشته — و معنای آنها برای عاملهای خودمختار که در دفترکلهای Beancount مینویسند، میپردازد.