FinRAGBench-V: RAG چندوجهی با استنادهای بصری در حوزه مالی
هوش مصنوعی مالی تحت سلطه RAG صرفاً متنی بوده است، اما اسناد مالی واقعی پر از نمودار، جدول و تصویرهایی هستند که OCR نمیتواند به طور کامل آنها را ثبت کند. FinRAGBench-V (EMNLP 2025) اولین بنچمارک در مقیاس بزرگ برای ارزیابی RAG چندوجهی با استنادهای بصری در حوزه مالی است و نتایج آن یادآوری هوشیارکنندهای است از اینکه سیستمهای تولیدی هنوز چقدر راه در پیش دارند.
مقاله
ژائو، جین، لی و گائو از دانشگاه پکن FinRAGBench-V را معرفی میکنند، یک بنچمارک دوزبانه که از اسناد مالی واقعی ساخته شده است: گزارشهای تحقیقاتی، صورتهای مالی، امیدنامهها، مقالات آکادمیک، مجلات و اخبار. بدنه بازیابی قابل توجه است—۶۰,۷۸۰ صفحه چینی و ۵۱,۲۱۹ صفحه انگلیسی در تقریباً ۱,۱۰۰ سند برای هر زبان—که با ۱,۳۹۴ جفت سوال و جواب حاشیهنویسی شده توسط انسان همراه شده است. این سوالات هفت دسته را پوشش میدهند: استنتاج متن، استخراج نمودار و جدول، محاسبات عددی، پرسوجوهای حساس به زمان و استدلال چندصفحهای. فراتر از مجموعه داده، دستاورد اصلی مقاله سیستم RGenCite است، یک سیستم پایه که پاسخها را همراه با استنادهای بصری در سطح پیکسل در قالب مختصات جعبههای محصورکننده (bounding-box) تولید میکند که مناطق خاصی از سند را که از هر ادعا پشتیبانی میکنند، علامتگذاری میکند.
ایدههای کلیدی
- بازیابی چندوجهی با اختلاف فاحشی بر بازیابی صرفاً متنی غلبه میکند: ColQwen2، یک بازیاب بینایی-زبانی که بر اساس تعبیههای تصویر-صفحه ساخته شده است، به Recall@10 معادل ۹۰.۱۳٪ (چینی) و ۸۵.۸۶٪ (انگلیسی) دست مییابد. بهترین بازیابهای مبتنی بر متن، BM25 و BGE-M3، در حدود ۴۲.۷۱٪ متوقف میشوند. این شکاف یک خطای گرد کردن نیست.
- دقت تولید حتی برای مدلهای پیشرو پایین است: GPT-4o در انگلیسی به دقت ۴۳.۴۱٪ (ROUGE 24.66) میرسد؛ o4-mini در چینی به ۵۸.۱۳٪ (ROUGE 38.55) دست مییابد. اینها مدلهای اختصاصی برتر با سیستمهای بازیابی قوی هستند.
- استناد در سطح صفحه کار میکند؛ در سطح بلوک نه: فراخوانی در سطح صفحه برای بهترین مدلها بین ۷۵ تا ۹۳ درصد است. فراخوانی در سطح بلوک—یعنی دانستن اینکه دقیقاً کدام سلول جدول یا منطقه نمودار پایه یک ادعا است—به ۲۰ تا ۶۱ درصد کاهش مییابد. این شکاف اصلی برای قابلیت حسابرسی است.
- استدلال عددی و استنتاج چندصفحهای اولین مواردی هستند که باعث شکست مدلها میشوند: سوالاتی که نی از به محاسبات در صفحات مختلف یا بازههای زمانی دارند، جایی هستند که دقت در تمام سیستمهای آزمایش شده به شدت افت میکند.
- مدلهای اختصاصی به طور قابل توجهی از جایگزینهای متنباز بهتر عمل میکنند: شکاف بین APIهای بسته و مدلهای متنباز در اینجا بزرگتر از اکثر بنچمارکهای NLP است، که نشان میدهد استدلال مالی بصری برای مدلهای باز هنوز حل نشده باقی مانده است.
- ارزیابی خودکار برای استنادها ناقص است: ارزیاب استناد مبتنی بر برش تصویر به همبستگی پیرسون r = 0.68 با قضاوتهای انسانی دست مییابد—که منطقی است اما آنقدر قابل اعتماد نیست که بدون نمونهبرداری به آن اعتماد کامل کرد.
چه چیزی درست است — و چه چیزی نه
یافته مربوط به بازیابی، معتبرترین نتیجه مقاله است. شکاف تقریباً ۵۰ واحد درصدی بین بازیابهای چندوجهی و صرفاً متنی در بیش از ۶۰ هزار صفحه، بسیار بزرگتر از آن است که نادیده گرفته شود. وقتی یک سند مالی را قبل از نمایهسازی OCR میکنید، سیگنالهای چیدمان ساختاری را از بین میبرید—اینکه یک عدد در کدام ستون ظاهر میشود یا اینکه آیا عنوان یک شکل، تفسیر یک جدول را تغییر میدهد یا خیر—که مشخص شده است برای بازیابی اهمیت فوقالعادهای دارند.
اعداد مربوط به تولید صادقانه هستند اما تفسیر آنها به تنهایی دشوار است. نویسندگان مشخص نکردهاند که چه مقدار از شکاف دقت مربوط به خطاهای بازیابی در مقابل شکستهای تولید است. با توجه به اینکه Recall@10 در حال حاضر برای انگلیسی ۸۵.۸۶٪ است، بخش قابل توجهی از شکستها باید مربوط به بخش تولید باشد تا بازیابی. دانستن این تفکیک مشخص میکرد که آیا گلوگاه در استدلال چندوجهی است یا چیزی بنیادیتر در مورد نحوه برخورد MLLMها با زبان مالی.
مجموعه ارزیابی شامل ۱,۳۹۴ جفت سوال و جواب برای گستره این بنچمارک کوچک است. با تقسیم بر هفت دسته و دو زبان، برخی بخشها کمتر از ۲۰۰ مثال دارند. معناداری آماری یافتههای سطح دسته به صورت ضمنی رها شده است. این موضوع برای یک مقاله بنچمارک غیرعادی نیست، اما به این معنی است که ساختن مقایسههای دستچین شده آسان خواهد بود.
پروتکل ارزیابی استناد یک مشارکت جالب است، اما همبستگی پیرسون r = 0.68 با رتبهبندیهای انسانی آنقدر قوی نیست که بتوان ارزیابی خودکار را به عنوان حقیقت مطلق برای استناد در سطح بلوک در نظر گرفت. نویس ندگان به این موضوع اذعان دارند؛ کارهای آینده روی معیارهای استناد بهتر به وضوح مشخص شده است.
چرا این برای هوش مصنوعی مالی مهم است
Beancount روی فایلهای دفتر کل متنی ساده اجرا میشود، که باعث میشود RAG صرفاً متنی برای پرسوجوی تراکنشهای گذشته قابل دفاع باشد. اما وظیفه حسابداری گستردهتر شامل اسنادی است که قطعاً متن ساده نیستند: PDFهای صورتحساب بانکی، فاکتورهای اسکن شده، تصاویر رسیدها و گزارشهای سالانه با جداول و نمودارهای تعبیه شده. لحظهای که یک عامل Beancount نیاز پیدا میکند تا یک ورودی دفتر کل را با یک سند منبع تطبیق دهد (reconcile)—مثلاً تأیید کند که یک هزینه خاص با فاکتور موجود در پرونده مطابقت دارد—دقیقاً در حال انجام همان وظیفهای است که FinRAGBench-V ارزیابی میکند.
یافتههای مربوط به استناد در سطح بلوک برای این مورد استفاده اهمیت زیادی دارد. اگر یک عامل باید یک ورودی دفتر کل را با اشاره به یک ردیف خاص در یک PDF توجیه کند و بهترین سیستم موجود تنها به ۲۰ تا ۶۱ درصد فراخوا نی در سطح بلوک دست مییابد، این سیستم آماده حسابرسی (audit-ready) نیست. هر خط لوله Beancount که با اسناد منبع اسکن شده در تماس است، تا زمانی که این عدد به طور قابل توجهی بهبود نیابد، به بازبینی انسانی (human-in-the-loop) نیاز دارد.
شکاف در مدل بازیابی نیز به شدت علیه خط لولههای صرفاً متنی برای دریافت اسناد استدلال میکند. تصویر یک رسید حاوی اطلاعات چیدمان است—فیلدهای مبلغ، نام فروشنده، موقعیت اقلام— که OCR آنها را نابود میکند. آن اطلاعات چیدمان دقیقاً همان چیزی است که جمع کل یک سطر را از مبلغ مالیات متمایز میکند و FinRAGBench-V نشان میدهد که بازیابهای چندوجهی از آن به روشهایی استفاده میکنند که بازیابهای متنی نمیتوانند.
چه چیزی در مرحله بعد بخوانیم
- ColPali: Efficient Document Retrieval with Vision Language Models — پیشنیاز ColQwen2 که رویکرد تعبیه تصویری صفحات را پایهگذاری کرد و بهترین بازیاب FinRAGBench-V بر اساس آن ساخته شده است [arXiv:2407.01449, ECCV 2024]
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — به پر سش و پاسخ بصری چند سندی با چارچوبی منعطف میپردازد که استدلال بصری تکمرحلهای و چندمرحلهای را در صفحات مختلف مدیریت میکند [arXiv:2411.04952]
- Benchmarking Temporal-Aware Multi-Modal RAG in Finance — یک بنچمارک مکمل از سال ۲۰۲۵ که حساسیت زمانی را در RAG چندوجهی مالی ارزیابی میکند و مستقیماً مکمل دسته سوالات حساس به زمان در FinRAGBench-V است [arXiv:2503.05185]
