پرش به محتوای اصلی
AI

همه چیز درباره AI

89 مقاله
Artificial intelligence research and applications in finance and accounting

FinRAGBench-V: RAG چندوجهی با استنادهای بصری در حوزه مالی

FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزرگ برای RAG چندوجهی با استنادهای بصری در حوزه مالی است که بیش از ۱۱۲ هزار صفحه سند و ۱۳۹۴ جفت سوال و جواب حاشیه‌نویسی شده توسط انسان را پوشش می‌دهد. مدل‌های برتر تنها به ۲۰ تا ۶۱ درصد فراخوانی استناد در سطح بلوک دست می‌یابند و بازیابی چندوجهی تقریباً ۵۰ درصد از بازیابی صرفاً متنی بهتر عمل می‌کند.

آیا عامل‌های LLM می‌توانند مدیر مالی باشند؟ شبیه‌سازی ۱۳۲ ماهه EnterpriseArena شکاف بزرگی را فاش می‌کند

پلتفرم EnterpriseArena یازده مدل زبانی بزرگ را در یک شبیه‌سازی ۱۳۲ ماهه مدیریت مالی (CFO) قرار می‌دهد تا بقا، ارزش نهایی و نرخ بستن دفاتر آن‌ها را بررسی کند. تنها مدل Qwen3.5-9B در ۸۰٪ موارد جان سالم به در می‌برد؛ GPT-5.4 و DeepSeek-V3.1 به نرخ بقای ۰٪ می‌رسند. خبرگان انسانی به بقای ۱۰۰٪ با ۵ برابر ارزش نهایی دست می‌یابند. گلوگاه اصلی: مدل‌های زبانی در ۸۰٪ مواقع از تطبیق دفتر کل چشم‌پوشی می‌کنند و بر اساس وضعیت مالی منقضی عمل می‌کنند.

WildToolBench: چرا هیچ مدل زبانی بزرگی در دقت جلسات استفاده از ابزار در دنیای واقعی از ۱۵٪ فراتر نمی‌رود

بنچ‌مارک WildToolBench (ICLR 2026) ۵۷ مدل زبانی بزرگ را بر روی ۱۰۲۴ وظیفه استخراج شده از رفتار واقعی کاربران ارزیابی می‌کند — هیچ مدلی از دقت ۱۵٪ در سطح جلسه فراتر نمی‌رود، و سازمان‌دهی ترکیبی، نیت پنهان و انتقال‌های دستورالعمل سه مورد از جدی‌ترین حالت‌های شکست هستند.

اعتماد و کالیبراسیون LLM: مروری بر آنچه تحقیقات واقعاً نشان می‌دهند

یک بررسی سیستماتیک از روش‌های تخمین اعتماد و کالیبراسیون در مدل‌های زبانی بزرگ (LLM) — رویکردهای لوجیت جعبه-سفید، SelfCheckGPT مبتنی بر سازگاری و آنتروپی معنایی — نشان می‌دهد که نمرات اعتماد کلامی از GPT-4 تنها به حدود ۶۲.۷٪ AUROC دست می‌یابند، که به سختی بالاتر از شانس است و پیامدهای مستقیمی برای استقرار عامل‌های آگاه به عدم قطعیت در امور مالی و حسابداری دارد.

JSONSchemaBench: پیچیدگی شمای دنیای واقعی، تضمین‌های خروجی ساختاریافته LLM را می‌شکند

بنچمارک JSONSchemaBench تعداد ۹,۵۵۸ شمای JSON واقعی را در برابر شش چارچوب رمزگشایی محدود شده آزمایش می‌کند و درمی‌یابد که پیچیدگی شِما باعث فروپاشی پوشش از ۸۶٪ در شماهای ساده به ۳٪ در شماهای پیچیده می‌شود؛ در حالی که XGrammar ۳۸ خروجی غیرمنطبق را بدون اطلاع صادر می‌کند و هیچ چارچوبی تمام ۴۵ دسته‌بندی ویژگی JSON Schema را پوشش نمی‌دهد.

FinMCP-Bench: معیار سنجش عامل‌های LLM برای استفاده از ابزارهای مالی واقعی تحت MCP

FinMCP-Bench شش مدل LLM را در ۶۱۳ وظیفه واقعی استفاده از ابزار مالی که توسط ۶۵ سرور MCP پشتیبانی می‌شوند، ارزیابی می‌کند — بهترین مدل در وظایف چند نوبتی امتیاز ۳.۰۸٪ تطبیق دقیق را کسب کرد که نشان‌دهنده فروپاشی عملکرد ۲۰ برابری از سناریوهای تک‌ابزاری به چند نوبتی است.

FinTrace: ارزیابی در سطح مسیر فراخوانی ابزار توسط مدل‌های زبانی بزرگ برای وظایف مالی

بنچمارک FinTrace، ۱۳ مدل زبانی بزرگ را در ۸۰۰ مسیر وظایف مالی با حاشیه‌نویسی متخصص بر اساس ۹ معیار ارزیابی می‌کند و دریافت که مدل‌های پیشرو در انتخاب ابزار به نتایج قوی (F1 ~0.9) می‌رسند، اما در بهره‌وری اطلاعات — مرحله‌ای که عوامل بر روی نتایج ابزارها استدلال می‌کنند — تنها امتیاز ۳.۲۳ از ۵ را کسب می‌کنند.

FinToolBench: ارزیابی عوامل LLM در استفاده از ابزارهای مالی واقعی

FinToolBench با جفت کردن ۷۶۰ ابزار API مالی زنده با ۲۹۵ پرس‌وجوی اجرایی، عوامل LLM را در وظایف مالی واقعی محک می‌زند — و به این نتیجه می‌رسد که نرخ فراخوانی محافظه‌کارانه ۲۲.۷ درصدی GPT-4o کیفیت پاسخ بالاتری (CSS 0.670) نسبت به TIR تهاجمی ۸۷.۱ درصدی Qwen3-8B ارائه می‌دهد، در حالی که عدم تطابق قصد در تمام مدل‌های آزمایش‌شده بیش از ۵۰٪ است.

OmniEval: بنچمارک ارزیابی همه‌جانبه RAG برای حوزه مالی

OmniEval (EMNLP 2025) سیستم‌های RAG را در ۵ نوع تسک × ۱۶ موضوع مالی با استفاده از ۱۱.۴ هزار مورد تست تولیدشده خودکار بنچمارک می‌کند. بهترین سیستم‌ها تنها به ۳۶٪ دقت عددی دست می‌یابند — مدرکی عینی مبنی بر اینکه خط لوله‌های RAG پیش از نوشتن در دفترکل‌های مالی ساختاریافته، به لایه‌های اعتبارسنجی نیاز دارند.

بررسی جامع تشخیص ناهنجاری با مدل‌های زبانی بزرگ (NAACL 2025): طبقه‌بندی قوی، غیبت پوشش داده‌های جدولی

خوانشی نقادانه از بررسی جامع شو و دینگ در NAACL 2025 درباره تشخیص ناهنجاری و OOD مبتنی بر LLM؛ در حالی که طبقه‌بندی تشخیص در برابر تولید پابرجاست، اما غیبت تقریباً کامل پوشش داده‌های جدولی به این معناست که متخصصان هوش مصنوعی مالی باید خودشان بینش‌ها را از مدل‌های بینایی استخراج کنند.