Mike Thrift
Marketing Manager
FinRAGBench-V: RAG چندوجهی با استنادهای بصری در حوزه مالی
FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزرگ برای RAG چندوجهی با استنادهای بصری در حوزه مالی است که بیش از ۱۱۲ هزار صفحه سند و ۱۳۹۴ جفت سوال و جواب حاشیهنویسی شده توسط انسان را پوشش میدهد. مدلهای برتر تنها به ۲۰ تا ۶۱ درصد فراخوانی استناد در سطح بلوک دست مییابند و بازیابی چندوجهی تقریباً ۵۰ درصد از بازیابی صرفاً متنی بهتر عمل میکند.
آیا عاملهای LLM میتوانند مدیر مالی باشند؟ شبیهسازی ۱۳۲ ماهه EnterpriseArena شکاف بزرگی را فاش میکند
پلتفرم EnterpriseArena یازده مدل زبانی بزرگ را در یک شبیهسازی ۱۳۲ ماهه مدیریت مالی (CFO) قرار میدهد تا بقا، ارزش نهایی و نرخ بستن دفاتر آنها را بررسی کند. تنها مدل Qwen3.5-9B در ۸۰٪ موارد جان سالم به در میبرد؛ GPT-5.4 و DeepSeek-V3.1 به نرخ بقای ۰٪ میرسند. خبرگان انسانی به بقای ۱۰۰٪ با ۵ برابر ارزش نهایی دست مییابند. گلوگاه اصلی: مدلهای زبانی در ۸۰٪ مواقع از تطبیق دفتر کل چشمپوشی میکنند و بر اساس وضعیت مالی منقضی عمل میکنند.
WildToolBench: چرا هیچ مدل زبانی بزرگی در دقت جلسات استفاده از ابزار در دنیای واقعی از ۱۵٪ فراتر نمیرود
بنچمارک WildToolBench (ICLR 2026) ۵۷ مدل زبانی بزرگ را بر روی ۱۰۲۴ وظیفه استخراج شده از رفتار واقعی کاربران ارزیابی میکند — هیچ مدلی از دقت ۱۵٪ در سطح جلسه فراتر نمیرود، و سازماندهی ترکیبی، نیت پنهان و انتقالهای دستورالعمل سه مورد از جدیترین حالتهای شکست هستند.
اعتماد و کالیبراسیون LLM: مروری بر آنچه تحقیقات واقعاً نشان میدهند
یک بررسی سیستماتیک از روشهای تخمین اعتماد و کالیبراسیون در مدلهای زبانی بزرگ (LLM) — رویکردهای لوجیت جعبه-سفید، SelfCheckGPT مبتنی بر سازگاری و آنتروپی معنایی — نشان میدهد که نمرات اعتماد کلامی از GPT-4 تنها به حدود ۶۲.۷٪ AUROC دست مییابند، که به سختی بالاتر از شانس است و پیامدهای مستقیمی برای استقرار عاملهای آگاه به عدم قطعیت در امور مالی و حسابداری دارد.
JSONSchemaBench: پیچیدگی شمای دنیای واقعی، تضمینهای خروجی ساختاریافته LLM را میشکند
بنچمارک JSONSchemaBench تعداد ۹,۵۵۸ شمای JSON واقعی را در برابر شش چارچوب رمزگشایی محدود شده آزمایش میکند و درمییابد که پیچیدگی شِما باعث فروپاشی پوشش از ۸۶٪ در شماهای ساده به ۳٪ در شماهای پیچیده میشود؛ در حالی که XGrammar ۳۸ خروجی غیرمنطبق را بدون اطلاع صادر میکند و هیچ چارچوبی تمام ۴۵ دستهبندی ویژگی JSON Schema را پوشش نمیدهد.
FinMCP-Bench: معیار سنجش عاملهای LLM برای استفاده از ابزارهای مالی واقعی تحت MCP
FinMCP-Bench شش مدل LLM را در ۶۱۳ وظیفه واقعی استفاده از ابزار مالی که توسط ۶۵ سرور MCP پشتیبانی میشوند، ارزیابی میکند — بهترین مدل در وظایف چند نوبتی امتیاز ۳.۰۸٪ تطبیق دقیق را کسب کرد که نشاندهنده فروپاشی عملکرد ۲۰ برابری از سناریوهای تکابزاری به چند نوبتی است.
FinTrace: ارزیابی در سطح مسیر فراخوانی ابزار توسط مدلهای زبانی بزرگ برای وظایف مالی
بنچمارک FinTrace، ۱۳ مدل زبانی بزرگ را در ۸۰۰ مسیر وظایف مالی با حاشیهنویسی متخصص بر اساس ۹ معیار ارزیابی میکند و دریافت که مدلهای پیشرو در انتخاب ابزار به نتایج قوی (F1 ~0.9) میرسند، اما در بهرهوری اطلاعات — مرحلهای که عوامل بر روی نتایج ابزارها استدلال میکنند — تنها امتیاز ۳.۲۳ از ۵ را کسب میکنند.
FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی
FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرسوجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک میزند — و به این نتیجه میرسد که نرخ فراخوانی محافظهکارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه میدهد، در حالی که عدم تطابق قصد در تمام مدلهای آزمایششده بیش از ۵۰٪ است.
OmniEval: بنچمارک ارزیابی همهجانبه RAG برای حوزه مالی
OmniEval (EMNLP 2025) سیستمهای RAG را در ۵ نوع تسک × ۱۶ موضوع مالی با استفاده از ۱۱.۴ هزار مورد تست تولیدشده خودکار بنچمارک میکند. بهترین سیستمها تنها به ۳۶٪ دقت عددی دست مییابند — مدرکی عینی مبنی بر اینکه خط لولههای RAG پیش از نوشتن در دفترکلهای مالی ساختاریافته، به لایههای اعتبارسنجی نیاز دارند.
بررسی جامع تشخیص ناهنجاری با مدلهای زبانی بزرگ (NAACL 2025): طبقهبندی قوی، غیبت پوشش دادههای جدولی
خوانشی نقادانه از بررسی جامع شو و دینگ در NAACL 2025 درباره تشخیص ناهنجاری و OOD مبتنی بر LLM؛ در حالی که طبقهبندی تشخیص در برابر تولید پابرجاست، اما غیبت تقریباً کامل پوشش دادههای جدولی به این معناست که متخصصان هوش مصنوعی مالی باید خودشان بینشها را از مدلهای بینایی استخراج کنند.
یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود میبخشد
یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش، سوگیری مکانی را از وزنهای توجه مدل زبانی بزرگ کسر میکند و تا ۱۵ واحد درصد از دقت RAG را در زمانی که اسناد بازیابی شده در میانه بافت مدفون شدهاند، بازیابی میکند — و این موضوع چه معنایی برای خط لولههای عاملهای تخصصی مالی دارد.
تعویق آگاه از عدم قطعیت برای عاملهای LLM: چه زمانی از مدلهای کوچک به بزرگ ارجاع دهیم
سیستم ReDAct بهطور پیشفرض یک مدل کوچک را اجرا میکند و تنها زمانی به یک مدل گرانقیمت ارجاع میدهد که پرپلکسیتی در سطح توکن نشاندهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفهجویی در هزینهها میشود؛ الگویی که مستقیماً برای عاملهای دستهبندی تراکنش در Beancount قابل استفاده است.