FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزر گ برای RAG چندوجهی با استنادهای بصری در حوزه مالی است که بیش از ۱۱۲ هزار صفحه سند و ۱۳۹۴ جفت سوال و جواب حاشیهنویسی شده توسط انسان را پوشش میدهد. مدلهای برتر تنها به ۲۰ تا ۶۱ درصد فراخوانی استناد در سطح بلوک دست مییابند و بازیابی چندوجهی تقریباً ۵۰ درصد از بازیابی صرفاً متنی بهتر عمل میکند.
یک بررسی سیستماتیک از روشهای تخمین اعتماد و کالیبراسیون در مدلهای زبانی بزرگ (LLM) — رویکردهای لوجیت جعبه-سفید، SelfCheckGPT مبتنی بر سازگاری و آنتروپی معنایی — نشان میدهد که نمرات اعتماد کلامی از GPT-4 تنها به حدود ۶۲.۷٪ AUROC دست مییابند، که به سختی بالاتر از شانس است و پیامدهای مستقیمی برای استقرار عاملهای آگاه به عدم قطعیت در امور مالی و حسابداری دارد.
بنچمارک FinTrace، ۱۳ مدل زبانی بزرگ را در ۸۰۰ مسیر وظایف مالی با حاشیهنویسی متخصص بر اساس ۹ معیار ارزیابی میکند و دریافت که مدلهای پیشرو در انتخاب ابزار به نتایج قوی (F1 ~0.9) میرسند، اما در بهرهوری اطلاعات — مرحلهای که عوامل بر روی نتایج ابزارها استدلال میکنند — تنها امتیاز ۳.۲۳ از ۵ را کسب میکنند.
OmniEval (EMNLP 2025) سیستمهای RAG را در ۵ نوع تسک × ۱۶ موضوع مالی با استفاده از ۱۱.۴ هزار مورد تست تولیدشده خودکار بنچمارک میکند. بهترین سیستمها تنها به ۳۶٪ دقت عددی دست مییابند — مدرکی عینی مبنی بر اینکه خط لولههای RAG پیش از نوشتن در دفترکلهای مالی ساختاریافته، به لایههای اعتبارسنجی نیاز دارند.
بنچمارک FinDER سیستم RAG را بر روی ۵,۷۰۳ پرسوجوی واقعی تحلیلگران صندوقهای پوشش ریسک در برابر پروندههای 10-K شاخص S&P 500 محک میزند؛ E5-Mistral تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست میآورد و پرسوجوهای پر از اختصار باعث کاهش ۸.۲ واحدی در دقت میشوند — شواهدی بر اینکه عادیسازی پرسوجو، و نه جاسازیهای بهتر، اولین راه حل برای خط لولههای هوش مصنوعی مالی است.
مقاله TACL 2024 توسط لیو و همکاران نشان میدهد که مدلهای زبانی بزرگ در اطلاعاتی که در میان زمینههای طولانی پنهان شدهاند، تا ۲۰ امتیاز ضعیفتر عمل میکنند — یک افت عملکرد U-شکل که بر تمام مدلهای آزمایششده از جمله Claude-1.3-100K تأثیر میگذارد — با پیامدهای ملموس برای نحوه ترتیببندی قطعات بازیابی شده در خط لولههای RAG در کاربردهای مالی و حسابداری.
AnoLLM (ICLR 2025) شناسایی ناهنجاریهای جدولی را به عنوان تخمین چگالی مدل زبانی بازتعریف میکند — تنظیم دقیق روی ردیفهای نرمال و امتیازدهی بر اساس لگاریتم احتمال منفی. این روش در مجموعهدادههای تقلب با انواع ترکیبی از روشهای کلاسیک بهتر عمل میکند، اما در دادههای صرفاً عددی برتری خاصی ندارد؛ موضوعی که پیامدهای واقعی برای شناسایی ناهنجاریها در ورودیهای دفترکل Beancount دارد.
DocFinQA قطعات منتخب ۷۰۰ کلمهای FinQA را با گزارشهای کامل ۱۲۳,۰۰۰ کلمهای SEC جایگزین میکند که منجر به افزایش ۱۷۵ برابری متن ورودی میشود و دقت GPT-4 را در اسناد طولانی تقریباً به نصف کاهش میدهد. خط لولههای بازیابی در ۴۵٪ مواقع در HR@3 موفق به یافتن بخش صحیح نمیشوند و مدلهای با متن طولانی جایگزین مناسبی نیستند.
پروژه TheAgentCompany تعداد ۱۷۵ وظیفه واقعی محیط کار را در یک اینترانت شبیهسازی شده شامل GitLab، OwnCloud و RocketChat آزمایش میکند. بهترین مدل (Gemini-2.5-Pro) تنها ۳۰٪ وظایف را با هزینه ۴ دلار برای هر مورد به انجام میرساند، که نشان میدهد عاملهای خودمختار هنوز با کاربردی شدن در جریانهای کاری حسابداری و مالی فاصله زیادی دارند.
پروژه InvestorBench (ACL 2025) ۱۳ مدل پایه LLM را در معاملات بکتست شده سهام، کریپتو و ETF با استفاده از بازده تجمعی و نسبت شارپ آزمایش میکند—نه دقت پرسش و پاسخ. مدل Qwen2.5-72B با بازده تجمعی ۴۶.۱۵٪ در صدر جدول سهام قرار دارد؛ مدلهای تنظیمشده برای امور مالی در بخش سهام نتیجه معکوس دادند. اندازه مدل بیش از تنظیم دقیق تخصصی، پیشبینیکننده عملکرد است.