پرش به محتوای اصلی

FinRAGBench-V: RAG چندوجهی با استنادهای بصری در حوزه مالی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

هوش مصنوعی مالی تحت سلطه RAG صرفاً متنی بوده است، اما اسناد مالی واقعی پر از نمودار، جدول و تصویرهایی هستند که OCR نمی‌تواند به طور کامل آن‌ها را ثبت کند. FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزرگ برای ارزیابی RAG چندوجهی با استنادهای بصری در حوزه مالی است و نتایج آن یادآوری هوشیارکننده‌ای است از اینکه سیستم‌های تولیدی هنوز چقدر راه در پیش دارند.

مقاله

2026-07-12-finragbench-v-multimodal-rag-visual-citation-financial-domain

ژائو، جین، لی و گائو از دانشگاه پکن FinRAGBench-V را معرفی می‌کنند، یک بنچمارک دوزبانه که از اسناد مالی واقعی ساخته شده است: گزارش‌های تحقیقاتی، صورت‌های مالی، امیدنامه‌ها، مقالات آکادمیک، مجلات و اخبار. بدنه بازیابی قابل توجه است—۶۰,۷۸۰ صفحه چینی و ۵۱,۲۱۹ صفحه انگلیسی در تقریباً ۱,۱۰۰ سند برای هر زبان—که با ۱,۳۹۴ جفت سوال و جواب حاشیه‌نویسی شده توسط انسان همراه شده است. این سوالات هفت دسته را پوشش می‌دهند: استنتاج متن، استخراج نمودار و جدول، محاسبات عددی، پرس‌وجوهای حساس به زمان و استدلال چندصفحه‌ای. فراتر از مجموعه داده، دستاورد اصلی مقاله سیستم RGenCite است، یک سیستم پایه که پاسخ‌ها را همراه با استنادهای بصری در سطح پیکسل در قالب مختصات جعبه‌های محصورکننده (bounding-box) تولید می‌کند که مناطق خاصی از سند را که از هر ادعا پشتیبانی می‌کنند، علامت‌گذاری می‌کند.

ایده‌های کلیدی

  • بازیابی چندوجهی با اختلاف فاحشی بر بازیابی صرفاً متنی غلبه می‌کند: ColQwen2، یک بازیاب بینایی-زبانی که بر اساس تعبیه‌های تصویر-صفحه ساخته شده است، به Recall@10 معادل ۹۰.۱۳٪ (چینی) و ۸۵.۸۶٪ (انگلیسی) دست می‌یابد. بهترین بازیاب‌های مبتنی بر متن، BM25 و BGE-M3، در حدود ۴۲.۷۱٪ متوقف می‌شوند. این شکاف یک خطای گرد کردن نیست.
  • دقت تولید حتی برای مدل‌های پیشرو پایین است: GPT-4o در انگلیسی به دقت ۴۳.۴۱٪ (ROUGE 24.66) می‌رسد؛ o4-mini در چینی به ۵۸.۱۳٪ (ROUGE 38.55) دست می‌یابد. این‌ها مدل‌های اختصاصی برتر با سیستم‌های بازیابی قوی هستند.
  • استناد در سطح صفحه کار می‌کند؛ در سطح بلوک نه: فراخوانی در سطح صفحه برای بهترین مدل‌ها بین ۷۵ تا ۹۳ درصد است. فراخوانی در سطح بلوک—یعنی دانستن اینکه دقیقاً کدام سلول جدول یا منطقه نمودار پایه یک ادعا است—به ۲۰ تا ۶۱ درصد کاهش می‌یابد. این شکاف اصلی برای قابلیت حسابرسی است.
  • استدلال عددی و استنتاج چندصفحه‌ای اولین مواردی هستند که باعث شکست مدل‌ها می‌شوند: سوالاتی که نیاز به محاسبات در صفحات مختلف یا بازه‌های زمانی دارند، جایی هستند که دقت در تمام سیستم‌های آزمایش شده به شدت افت می‌کند.
  • مدل‌های اختصاصی به طور قابل توجهی از جایگزین‌های متن‌باز بهتر عمل می‌کنند: شکاف بین APIهای بسته و مدل‌های متن‌باز در اینجا بزرگتر از اکثر بنچمارک‌های NLP است، که نشان می‌دهد استدلال مالی بصری برای مدل‌های باز هنوز حل نشده باقی مانده است.
  • ارزیابی خودکار برای استنادها ناقص است: ارزیاب استناد مبتنی بر برش تصویر به همبستگی پیرسون r = 0.68 با قضاوت‌های انسانی دست می‌یابد—که منطقی است اما آنقدر قابل اعتماد نیست که بدون نمونه‌برداری به آن اعتماد کامل کرد.

چه چیزی درست است — و چه چیزی نه

یافته مربوط به بازیابی، معتبرترین نتیجه مقاله است. شکاف تقریباً ۵۰ واحد درصدی بین بازیاب‌های چندوجهی و صرفاً متنی در بیش از ۶۰ هزار صفحه، بسیار بزرگتر از آن است که نادیده گرفته شود. وقتی یک سند مالی را قبل از نمایه‌سازی OCR می‌کنید، سیگنال‌های چیدمان ساختاری را از بین می‌برید—اینکه یک عدد در کدام ستون ظاهر می‌شود یا اینکه آیا عنوان یک شکل، تفسیر یک جدول را تغییر می‌دهد یا خیر—که مشخص شده است برای بازیابی اهمیت فوق‌العاده‌ای دارند.

اعداد مربوط به تولید صادقانه هستند اما تفسیر آن‌ها به تنهایی دشوار است. نویسندگان مشخص نکرده‌اند که چه مقدار از شکاف دقت مربوط به خطاهای بازیابی در مقابل شکست‌های تولید است. با توجه به اینکه Recall@10 در حال حاضر برای انگلیسی ۸۵.۸۶٪ است، بخش قابل توجهی از شکست‌ها باید مربوط به بخش تولید باشد تا بازیابی. دانستن این تفکیک مشخص می‌کرد که آیا گلوگاه در استدلال چندوجهی است یا چیزی بنیادی‌تر در مورد نحوه برخورد MLLMها با زبان مالی.

مجموعه ارزیابی شامل ۱,۳۹۴ جفت سوال و جواب برای گستره این بنچمارک کوچک است. با تقسیم بر هفت دسته و دو زبان، برخی بخش‌ها کمتر از ۲۰۰ مثال دارند. معناداری آماری یافته‌های سطح دسته به صورت ضمنی رها شده است. این موضوع برای یک مقاله بنچمارک غیرعادی نیست، اما به این معنی است که ساختن مقایسه‌های دست‌چین شده آسان خواهد بود.

پروتکل ارزیابی استناد یک مشارکت جالب است، اما همبستگی پیرسون r = 0.68 با رتبه‌بندی‌های انسانی آنقدر قوی نیست که بتوان ارزیابی خودکار را به عنوان حقیقت مطلق برای استناد در سطح بلوک در نظر گرفت. نویسندگان به این موضوع اذعان دارند؛ کارهای آینده روی معیارهای استناد بهتر به وضوح مشخص شده است.

چرا این برای هوش مصنوعی مالی مهم است

Beancount روی فایل‌های دفتر کل متنی ساده اجرا می‌شود، که باعث می‌شود RAG صرفاً متنی برای پرس‌وجوی تراکنش‌های گذشته قابل دفاع باشد. اما وظیفه حسابداری گسترده‌تر شامل اسنادی است که قطعاً متن ساده نیستند: PDFهای صورت‌حساب بانکی، فاکتورهای اسکن شده، تصاویر رسیدها و گزارش‌های سالانه با جداول و نمودارهای تعبیه شده. لحظه‌ای که یک عامل Beancount نیاز پیدا می‌کند تا یک ورودی دفتر کل را با یک سند منبع تطبیق دهد (reconcile)—مثلاً تأیید کند که یک هزینه خاص با فاکتور موجود در پرونده مطابقت دارد—دقیقاً در حال انجام همان وظیفه‌ای است که FinRAGBench-V ارزیابی می‌کند.

یافته‌های مربوط به استناد در سطح بلوک برای این مورد استفاده اهمیت زیادی دارد. اگر یک عامل باید یک ورودی دفتر کل را با اشاره به یک ردیف خاص در یک PDF توجیه کند و بهترین سیستم موجود تنها به ۲۰ تا ۶۱ درصد فراخوانی در سطح بلوک دست می‌یابد، این سیستم آماده حسابرسی (audit-ready) نیست. هر خط لوله Beancount که با اسناد منبع اسکن شده در تماس است، تا زمانی که این عدد به طور قابل توجهی بهبود نیابد، به بازبینی انسانی (human-in-the-loop) نیاز دارد.

شکاف در مدل بازیابی نیز به شدت علیه خط لوله‌های صرفاً متنی برای دریافت اسناد استدلال می‌کند. تصویر یک رسید حاوی اطلاعات چیدمان است—فیلدهای مبلغ، نام فروشنده، موقعیت اقلام— که OCR آن‌ها را نابود می‌کند. آن اطلاعات چیدمان دقیقاً همان چیزی است که جمع کل یک سطر را از مبلغ مالیات متمایز می‌کند و FinRAGBench-V نشان می‌دهد که بازیاب‌های چندوجهی از آن به روش‌هایی استفاده می‌کنند که بازیاب‌های متنی نمی‌توانند.

چه چیزی در مرحله بعد بخوانیم

  • ColPali: Efficient Document Retrieval with Vision Language Models — پیش‌نیاز ColQwen2 که رویکرد تعبیه تصویری صفحات را پایه‌گذاری کرد و بهترین بازیاب FinRAGBench-V بر اساس آن ساخته شده است [arXiv:2407.01449, ECCV 2024]
  • M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — به پرسش و پاسخ بصری چند سندی با چارچوبی منعطف می‌پردازد که استدلال بصری تک‌مرحله‌ای و چندمرحله‌ای را در صفحات مختلف مدیریت می‌کند [arXiv:2411.04952]
  • Benchmarking Temporal-Aware Multi-Modal RAG in Finance — یک بنچمارک مکمل از سال ۲۰۲۵ که حساسیت زمانی را در RAG چندوجهی مالی ارزیابی می‌کند و مستقیماً مکمل دسته سوالات حساس به زمان در FinRAGBench-V است [arXiv:2503.05185]