پرش به محتوای اصلی

OmniEval: بنچمارک ارزیابی همه‌جانبه RAG برای حوزه مالی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

بیشتر بنچمارک‌های RAG در امور مالی می‌پرسند که آیا یک سیستم می‌تواند بازیابی کند و پاسخ دهد یا خیر — تمام. OmniEval (EMNLP 2025, arXiv:2412.13018) از شوتینگ وانگ و همکاران در RUC سوال سخت‌تری می‌پرسد: آیا عملکرد در تمام ماتریس انواع وظایف و موضوعات مالی ثابت می‌ماند؟ من در حال خواندن آن هستم زیرا این ساختارمندترین تلاش برای نقشه‌برداری از شکل شکست RAG در امور مالی است، پیش از آنکه سعی کنیم عوامل دفترکل Beancount قابل اعتمادی را بر روی خط لوله‌های RAG بسازیم.

مقاله

2026-07-04-omnieval-omnidirectional-automatic-rag-evaluation-financial-domain

OmniEval یک شبکه ارزیابی دو بعدی ایجاد می‌کند: پنج کلاس وظیفه (پرسش و پاسخ استخراجی، استدلال چند مرحله‌ای، پرسش و پاسخ مقایسه‌ای، پرسش و پاسخ طولانی و پرسش و پاسخ گفتگویی) که با ۱۶ موضوع مالی (بازارهای سهام، بانکداری سرمایه‌گذاری، صندوق‌ها، بیمه اموال و غیره) تلاقی دارند. نتیجه یک بنچمارک ساختاریافته با ۱۱.۴ هزار نمونه تست تولیدشده خودکار، ۱.۷ هزار نمونه برچسب‌گذاری شده توسط انسان و یک پیکره بازیابی با ۳۶۲ هزار سند است که از شش منبع داده مالی چینی گردآوری شده است (BSCF-DB با ۱۹۳ هزار سند، FinGLM با ۵۵ هزار، BAAI-Fin با ۴۸ هزار، خزش‌های وب رسمی، فایل‌های PDF و محتوای مالی ویکی‌پدیا). این بنچمارک همچنین شامل یک ارزیاب LLM تنظیم‌شده (fine-tuned) است — مدل Qwen2.5-7B-Instruct که بر روی ۹۱۰ نمونه برچسب‌گذاری شده توسط انسان آموزش دیده است — که کیفیت تولید را در شاخص‌های دقت، توهم، کامل بودن، بهره‌وری و دقت عددی امتیازدهی می‌کند. این مقاله در EMNLP 2025 منتشر شد.

ایده‌های کلیدی

  • مواردی که به صورت خودکار تولید شده بودند، در بررسی پذیرش انسانی نرخ ۸۷.۴۷٪ را کسب کردند، به این معنی که تقریباً ۱ مورد از هر ۸ مورد تولید شده کنار گذاشته شده است — که نرخ نویز ناچیزی برای یک بنچمارک نیست.
  • بهترین بازیاب (GTE-Qwen2-1.5B) به MAP معادل ۰.۴۳۷۰ و MRR معادل ۰.۴۴۹۱ در مجموعه خودکار دست یافت، به این معنی که حتی با قوی‌ترین بازیاب آزمایش‌شده، متن رتبه اول کمتر از نیمی از مواقع صحیح است.
  • دقت تولید (ACC) در تمامی ترکیبات بازیاب-LLM از ۰.۳۲۳۸ تا ۰.۴۴۷۶ متغیر بود — بهترین پیکربندی به کمتر از نیمی از سوالات پاسخ درست می‌دهد.
  • دقت عددی (NAC) تامل‌برانگیزترین یافته است: ۰.۰۶۵۹ تا ۰.۳۵۹۵. بهترین سیستم اعداد مالی را در حدود ۳۶٪ مواقع درست تشخیص می‌دهد؛ بدترین سیستم نزدیک به صفر است.
  • ارزیاب تنظیم‌شده به ۷۴.۴٪ توافق با برچسب‌گذاری انسانی (κ = ۰.۶۴۸۶) دست یافت که به طور قابل توجهی بهتر از خط‌بست‌های مبتنی بر پرامپت (۵۵-۷۱٪) عمل کرد — اما همچنان یک ارزیابی از هر چهار ارزیابی با قضاوت انسانی همخوانی ندارد.
  • استدلال چند مرحله‌ای و پرسش و پاسخ گفتگویی به طور مداوم سخت‌ترین کلاس‌های وظیفه بودند.

چه چیزی پابرجاست — و چه چیزی نه

طراحی ارزیابی ماتریسی واقعاً مفید است. بنچمارک‌های قبلی مالی (FinanceBench، FinQA، DocFinQA) ارزیابی را به عنوان یک محور واحد — معمولاً دقت پاسخ — در نظر می‌گیرند و تنوع ساختاری در نحوه شکست RAG را نادیده می‌گیرند. دانستن اینکه یک سیستم در پرسش و پاسخ استخراجی خوب عمل می‌کند اما در استدلال چند مرحله‌ای ضعیف است، قابل بهره‌برداری است؛ اما دانستن میانگین کل امتیازات اینطور نیست. شبکه OmniEval این تنوع را مرئی می‌کند و این یافته که عملکرد در موضوعات مختلف ناهماهنگ است، دقیقاً همان نتیجه‌ای است که متخصصان باید قبل از استقرار سیستم ببینند.

با این حال، محدودیت‌های واقعی وجود دارد که می‌خواهم صریحاً به آن‌ها اشاره کنم. پیکره متنی به شدت چینی است: پنج منبع داده از شش منبع، داده‌های مالی چینی هستند (BSCF، FinGLM، BAAI-Fin) و ششمین مورد ویکی‌پدیای چینی است. مقاله نتایج را به تفکیک زبان گزارش نمی‌دهد — فقط اعداد کلی را ارائه می‌دهد. این موضوع باعث می‌شود هر امتیازی در مقاله به عنوان ادعایی درباره RAG مالی به طور کلی، در مقابل RAG مالی روی متن چینی با بازیاب‌ها و LLMهای تخصصی چینی (GTE-Qwen2-1.5B، Qwen2.5-72B، Yi15-34B) مورد تردید باشد. کاربران مالی انگلیسی‌زبان نمی‌توانند مستقیماً از این اعداد استفاده کنند.

ارزیاب LLM بر روی ۹۱۰ نمونه برچسب‌دار آموزش دیده است. این مقدار کمی است. توافق ۷۴.۴٪ انسانی در κ = ۰.۶۴۸۶ به عنوان نقطه شروع قابل دفاع است، اما به این معنی است که خود چارچوب ارزیابی نویز قابل توجهی وارد می‌کند. اگر بنچمارک برای مقایسه سیستم‌هایی استفاده شود که تفاوت چند درصدی دارند، واریانس ارزیاب سیگنال اصلی را از بین می‌برد.

خط لوله تولید خودکار — که در آن GPT-4 سوالات تست را تولید می‌کند و انسان‌ها با نرخ پذیرش ۸۷.۴۷٪ فیلتر می‌کنند — همچنین سوالی درباره آلودگی (contamination) ایجاد می‌کند که مقاله به آن نمی‌پردازد: سوالات تولید شده توسط GPT-4 ممکن است به گونه‌ای با نقاط قوت مدل‌های کلاس GPT-4 همسو باشد که مدل‌های قدیمی‌تر یا کوچک‌تر را به صورت سیستماتیک در وضعیت نامساعدی قرار دهد.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

امتیازات دقت عددی اعدادی هستند که من مدام به آن‌ها باز می‌گردم: ۰.۰۶۵۹–۰.۳۵۹۵. اگر بهترین سیستم RAG آزمایش‌شده در یک ارزیابی بنچمارک شده، اعداد مالی را فقط ۳۶٪ مواقع درست تشخیص دهد، هر عامل بازنویسی Beancount که بر روی یک خط لوله RAG ساده ساخته شده باشد، داده‌های دفترکل را خراب می‌کند. فرمت Beancount سخت‌گیرانه است — یک مبلغ، تاریخ یا نام حساب اشتباه منجر به خطای تجزیه یا یک خطای حسابداری پنهان می‌شود که می‌تواند در طول سال‌های مالی منتشر شود. این بنچمارک شواهد عینی به ما می‌دهد که بازیابی RAG و تولید LLM هنوز برای بازنویسی مستقیم در دفترکل بدون یک لایه اعتبارسنجی، به اندازه کافی قابل اعتماد نیستند.

ساختار کلاس‌های وظیفه نیز به خوبی با موارد استفاده Beancount مطابقت دارد. پرسش و پاسخ استخراجی معادل جستجوهای ساده موجودی است. استدلال چند مرحله‌ای معادل سوالاتی مانند «سود خالص من پس از مالیات در بازه Q1-Q3 چقدر است؟» می‌باشد. پرسش و پاسخ گفتگویی معادل کاربری است که در طول یک جلسه به طور مکرر یک درخواست مغایرت‌گیری را اصلاح می‌کند. یافته OmniEval مبنی بر اینکه وظایف چند مرحله‌ای و گفتگویی سخت‌ترین هستند، دقیقاً خبر بدی برای طراحی عامل Beancount است: موارد ساده تقریباً خوب هستند؛ اما موارد واقعی جایی هستند که سیستم از هم می‌پاشد.

چه چیزی را در ادامه بخوانیم

  • ARES: چارچوب ارزیابی خودکار برای تولید تقویت‌شده با بازیابی (arXiv:2311.09476، NAACL 2025) — نزدیک‌ترین آنالوگ حوزه عمومی به رویکرد تنظیم دقیق ارزیاب OmniEval؛ مقایسه متدولوژی ARES با OmniEval روشن می‌کند که آیا انتخاب‌های طراحی ارزیاب LLM اصولی هستند یا موردی.
  • RAGEval: چارچوب تولید مجموعه داده ارزیابی RAG سناریو-محور (ACL 2025, aclanthology.org/2025.acl-long.418) — تولید سناریوی خودکار برای ارزیابی RAG؛ متدولوژی تولید خودکاری را که OmniEval استفاده می‌کند گسترش می‌دهد و ممکن است به نگرانی‌های مربوط به آلودگی پاسخ دهد.
  • FinRAGBench-V: بنچمارکی برای RAG چندوجهی با ارجاع بصری در حوزه مالی (arXiv:2505.17471) — ارزیابی RAG را به اسناد مالی چندوجهی (جداول، نمودارها) گسترش می‌دهد؛ از آنجا که کاربران Beancount به طور فزاینده‌ای تصاویر رسید و صورت‌حساب‌های PDF را در کنار دفترکل‌های متنی ساده دارند، مرتبط است.