OmniEval: بنچمارک ارزیابی همهجانبه RAG برای حوزه مالی
بیشتر بنچمارکهای RAG در امور مالی میپرسند که آیا یک سیستم میتواند بازیابی کند و پاسخ دهد یا خیر — تمام. OmniEval (EMNLP 2025, arXiv:2412.13018) از شوتینگ وانگ و همکاران در RUC سوال سختتری میپرسد: آیا عملکرد در تمام ماتریس انواع وظایف و موضوعات مالی ثابت میماند؟ من در حال خواندن آن هستم زیرا این ساختارمندترین تلاش برای نقشهبرداری از شکل شکست RAG در امور مالی است، پیش از آنکه سعی کنیم عوامل دفترکل Beancount قابل اعتمادی را بر روی خط لولههای RAG بسازیم.
مقاله
OmniEval یک شبکه ارزیابی دو بعدی ایجاد میکند: پنج کلاس وظیفه (پرسش و پاسخ استخراجی، استدلال چند مرحلهای، پرسش و پاسخ مقایسهای، پرسش و پاسخ طولانی و پرسش و پاسخ گفتگویی) که با ۱۶ موضوع مالی (بازارهای سهام، بانکداری سرمایهگذاری، صندوقها، بیمه اموال و غیره) تلاقی دارند. نتیجه یک بنچمارک ساختاریافته با ۱۱.۴ هزار نمونه تست تولیدشده خودکار، ۱.۷ هزار نمونه برچسبگذاری شده توسط انسان و یک پیکره بازیابی با ۳۶۲ هزار سند است که از شش منبع داده مالی چینی گردآوری شده است (BSCF-DB با ۱۹۳ هزار سند، FinGLM با ۵۵ هزار، BAAI-Fin با ۴۸ هزار، خزشهای وب رسمی، فایلهای PDF و محتوای مالی ویکیپدیا). این بنچمارک همچنین شامل یک ارزیاب LLM تنظیمشده (fine-tuned) است — مدل Qwen2.5-7B-Instruct که بر روی ۹۱۰ نمونه برچسبگذاری شده توسط انسان آموزش دیده است — که کیفیت تولید را در شاخصهای دقت، توهم، کامل بودن، بهرهوری و دقت عددی امتیازدهی میکند. این مقاله در EMNLP 2025 منتشر شد.
ایدههای کلیدی
- مواردی که به صورت خودکار تولید شده بودند، در بررسی پذیرش انسانی نرخ ۸۷.۴۷٪ را کسب کردند، به این معنی که تقریباً ۱ مورد از هر ۸ مورد تولید شده کنار گذاشته شده است — که نرخ نویز ناچیزی برای یک بنچمارک نیست.
- بهترین بازیاب (GTE-Qwen2-1.5B) به MAP معادل ۰.۴۳۷۰ و MRR معادل ۰.۴۴۹۱ در مجموعه خودکار دست یافت، به این معنی که حتی با قویترین بازیاب آزمایششده، متن رتبه اول کمتر از نیمی از مواقع صحیح است.
- دقت تولید (ACC) در تمامی ترکیبات بازیاب-LLM از ۰.۳۲۳۸ تا ۰.۴۴۷۶ متغیر بود — بهترین پیکربندی به کمتر از نیمی از سوالات پاسخ درست میدهد.
- دقت عددی (NAC) تاملبرانگیزترین یافته است: ۰.۰۶۵۹ تا ۰.۳۵۹۵. بهترین سیستم اعداد مالی را در حدود ۳۶٪ مواقع درست تشخیص میدهد؛ بدترین سیستم نزدیک به صفر است.
- ارزیاب تنظیمشده به ۷۴.۴٪ توافق با برچسبگذاری انسانی (κ = ۰.۶۴۸۶) دست یافت که به طور قابل توجهی بهتر از خطبستهای مبتنی بر پرامپت (۵۵-۷۱٪) عمل کرد — اما همچنان یک ارزیابی از هر چهار ارزیابی با قضاوت انسانی همخوانی ندارد.
- استدلال چند مرحلهای و پرسش و پاسخ گفتگویی به طور مداوم سختترین کلاسهای وظیفه بودند.
چه چیزی پابرجاست — و چه چیزی نه
طراحی ارزیابی ماتریسی واقعاً مفید است. بنچمارکهای قبلی مالی (FinanceBench، FinQA، DocFinQA) ارزیابی را به عنوان یک محور واحد — معمولاً دقت پاسخ — در نظر میگیرند و تنوع ساختاری در نحوه شکست RAG را نادیده میگیرند. دانستن اینکه یک سیستم در پرسش و پاسخ استخراجی خوب عمل میکند اما در استدلال چند مرحلهای ضعیف است، قابل بهرهبرداری است؛ اما دانستن میانگین کل امتیازات اینطور نیست. شبکه OmniEval این تنوع را مرئی میکند و این یافته که عملکرد در موضوعات مختلف ناهماهنگ است، دقیقاً همان نتیجهای است که متخصصان باید قبل از استقرار سیستم ببینند.
با این حال، محدودیتهای واقعی وجود دارد که میخواهم صریحاً به آنها اشاره کنم. پیکره متنی به شدت چینی است: پنج منبع داده از شش منبع، دادههای مالی چینی هستند (BSCF، FinGLM، BAAI-Fin) و ششمین مورد ویکیپدیای چینی است. مقاله نتایج را به تفکیک زبان گزارش نمیدهد — فقط اعداد کلی را ارائه میدهد. این موضوع باعث میشود هر امتیازی در مقاله به عنوان ادعایی درباره RAG مالی به طور کلی، در مقابل RAG مالی روی متن چینی با بازیابها و LLMهای تخصصی چینی (GTE-Qwen2-1.5B، Qwen2.5-72B، Yi15-34B) مورد تردید باشد. کاربران مالی انگلیسیزبان نمیتوانند مستقیماً از این اعداد استفاده کنند.
ارزیاب LLM بر روی ۹۱۰ نمونه برچسبدار آموزش دیده است. این مقدار کمی است. توافق ۷۴.۴٪ انسانی در κ = ۰.۶۴۸۶ به عنوان نقطه شروع قابل دفاع است، اما به این معنی است که خود چارچوب ارزیابی نویز قابل توجهی وارد میکند. اگر بنچمارک برای مقایسه سیستمهایی استفاده شود که تفاوت چند درصدی دارند، واریانس ارزیاب سیگنال اصلی را از بین میبرد.
خط لوله تولید خودکار — که در آن GPT-4 سوالات تست را تولید میکند و انسانها با نرخ پذیرش ۸۷.۴۷٪ فیلتر میکنند — همچنین سوالی درباره آلودگی (contamination) ایجاد میکند که مقاله به آن نمیپردازد: سوالات تولید شده توسط GPT-4 ممکن است به گونهای با نقاط قوت مدلهای کلاس GPT-4 همسو باشد که مدلهای قدیمیتر یا کوچکتر را به صورت سیستماتیک در وضعیت نامساعدی قرار دهد.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
امتیازات دقت عددی اعدادی هستند که من مدام به آنها باز میگردم: ۰.۰۶۵۹–۰.۳۵۹۵. اگر بهترین سیستم RAG آزمایششده در یک ارزیابی بنچمارک شده، اعداد مالی را فقط ۳۶٪ مواقع درست تشخیص دهد، هر عامل بازنویسی Beancount که بر روی یک خط لوله RAG ساده ساخته شده باشد، دادههای دفترکل را خراب میکند. فرمت Beancount سختگیرانه است — یک مبلغ، تاریخ یا نام حساب اشتباه منجر به خطای تجزیه یا یک خطای حسابداری پنهان میشود که میتواند در طول سالهای مالی منتشر شود. این بنچمارک شواهد عینی به ما میدهد که بازیابی RAG و تولید LLM هنوز برای بازنویسی مستقیم در دفترکل بدون یک لایه اعتبارسنجی، به اندازه کافی قابل اعتماد نیستند.
ساختار کلاسهای وظیفه نیز به خوبی با موارد استفاده Beancount مطابقت دارد. پرسش و پاسخ استخراجی معادل جستجوهای ساده موجودی است. استدلال چند مرحلهای معادل سوالاتی مانند «سود خالص من پس از مالیات در بازه Q1-Q3 چقدر است؟» میباشد. پرسش و پاسخ گفتگویی معادل کاربری است که در طول یک جلسه به طور مکرر یک درخواست مغایرتگیری را اصلاح میکند. یافته OmniEval مب نی بر اینکه وظایف چند مرحلهای و گفتگویی سختترین هستند، دقیقاً خبر بدی برای طراحی عامل Beancount است: موارد ساده تقریباً خوب هستند؛ اما موارد واقعی جایی هستند که سیستم از هم میپاشد.
چه چیزی را در ادامه بخوانیم
- ARES: چارچوب ارزیابی خودکار برای تولید تقویتشده با بازیابی (arXiv:2311.09476، NAACL 2025) — نزدیکترین آنالوگ حوزه عمومی به رویکرد تنظیم دقیق ارزیاب OmniEval؛ مقایسه متدولوژی ARES با OmniEval روشن میکند که آیا انتخابهای طراحی ارزیاب LLM اصولی هستند یا موردی.
- RAGEval: چارچوب تولید مجموعه داده ارزیابی RAG سناریو-محور (ACL 2025, aclanthology.org/2025.acl-long.418) — تولید سناریوی خودکار برای ارزیابی RAG؛ متدولوژی تولید خودکاری را که OmniEval استفاده میکند گسترش میدهد و ممکن است به نگرانیهای مربوط به آلودگی پاسخ دهد.
- FinRAGBench-V: بنچمارکی برای RAG چندوجهی با ارجاع بصری در حوزه مالی (arXiv:2505.17471) — ارزیابی RAG را به اسناد مالی چندوجهی (جداول، نمودارها) گسترش میدهد؛ از آنجا که کاربران Beancount به طور فزایندهای تصاویر رسید و صورتح سابهای PDF را در کنار دفترکلهای متنی ساده دارند، مرتبط است.