پرش به محتوای اصلی

FinDER: پرس‌وجوهای واقعی تحلیل‌گران شکاف بازخوانی ۷۴ درصدی را در RAG مالی فاش می‌کنند

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

FinDER (arXiv:2504.15800) یک بنچمارک بازیابی است که حول یک مشاهده ساده اما کمتر قدردانی شده ساخته شده است: پرس‌وجوهایی که متخصصان مالی واقعی تایپ می‌کنند هیچ شباهتی به سوالات صیقل‌خورده در بنچمارک‌های آکادمیک ندارند. من آن را می‌خوانم زیرا در نقطه تلاقی دو موضوعی است که دنبال می‌کردم — شکاف بازیابی در هوش مصنوعی مالی و مشکل واقع‌گرایی عملی که DocFinQA و FinanceBench شروع به افشای آن کردند.

مقاله

2026-06-28-finder-financial-dataset-rag-evaluation

چانیول چوی، جیهون کوون و همکاران در یک شرکت هوش مصنوعی مالی، مجموعه‌ای از داده‌ها شامل ۵,۷۰۳ سه‌تایی پرس‌وجو-شواهد-پاسخ که توسط کارشناسان حاشیه‌نویسی شده و از یک سرویس پرسش و پاسخ تحلیل‌گر صندوق پوشش ریسک واقعی تهیه شده است، ارائه می‌دهند. اسناد شامل پرونده‌های فرم 10-K از ۴۹۰ شرکت شاخص S&P 500 هستند که از SEC EDGAR جمع‌آوری شده‌اند. آنچه FinDER را از بنچمارک‌های قبلی متمایز می‌کند، بخش پرس‌وجو است: ۸۹.۸۶٪ از پرس‌وجوها شامل سه یا چند اختصار یا کوته‌نوشت تخصصی حوزه هستند. به جای "درآمد کل شرکت X برای سال مالی ۲۰۲۳ چقدر است؟"، یک تحلیل‌گر واقعی ممکن است تایپ کند "GOOGL 10-K FY23 revs breakdown by segment". این دیتاست در کارگاه ICLR 2025 در مورد پیشرفت‌های هوش مصنوعی مالی منتشر شد و بعداً در ICAIF 2025 ظاهر گردید.

ایده‌های کلیدی

  • بازخوانی بازیابی در تمام سطوح به طور تکان‌دهنده‌ای پایین است: E5-Mistral (بهترین بازیاب متراکم) در مجموع تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست می‌آورد؛ BM25 به ۱۱.۶۸٪ می‌رسد. دسته "مالی" (Financials) — که مستقیم‌ترین ارتباط را با حسابداری دارد — سخت‌ترین دسته است: به ترتیب ۱۵.۸۴٪ و ۶.۴۲٪.
  • ابهام در پرس‌وجو به تنهایی ۸.۲ واحد از دقت می‌کاهد: نویسندگان با آزمایش E5-Mistral بر روی ۵۰۰ پرس‌وجو، جملات بازنویسی شده با ساختار مناسب (دقت ۳۳.۹) را با پرس‌وجوهای مختصر واقعی (دقت ۲۵.۷) مقایسه می‌کنند. این شکاف کاملاً مربوط به مدیریت اختصارات/کوته‌نوشت‌هاست و نه پیچیدگی سند.
  • کیفیت بازیابی گلوگاه اصلی برای تولید (Generation) است: مدل‌های زبانی بزرگ (LLM) بدون بافتار امتیازی نزدیک به صفر (۹-۱۰٪ پاسخ صحیح) می‌گیرند؛ با ۱۰ پاراگراف برتر بازیابی شده به ۲۹-۳۴٪ می‌رسند؛ و با بافتار ایده‌آل (اوراکل) به ۶۰-۶۸٪ جهش می‌کنند. این شکاف ۳۵ واحدی بین شرایط واقع‌بینانه و شرایط ایده‌آل، بزرگتر از شکاف بین مدل‌های متن‌باز و مدل‌های پیشرو (Frontier) است.
  • محاسبات ترکیبی حتی با بازیابی خوب هم شکست می‌خورند: وظایف محاسباتی چند مرحله‌ای (پرس‌وجوهای ترکیبی) تنها به حدود ۲۰٪ صحت در هر چهار مدل — Claude-3.7-Sonnet، GPT-o1، DeepSeek-R1-Distill و Qwen-QWQ — حتی با ۱۰ پاراگراف برتر بازیابی شده می‌رسند. GPT-o1 در وظایف ضرب با ۴۲.۹۰٪ پیشتاز است اما در تقسیم به ۲۷.۷۸٪ سقوط می‌کند.
  • رتبه‌بندی مجدد توسط LLM بهبود متوسط اما ثابتی ایجاد می‌کند: با اجازه دادن به مدل‌ها برای رتبه‌بندی مجدد ۱۰ نتیجه برتر E5-Mistral قبل از پاسخگویی، Claude-3.7-Sonnet به F1 معادل ۶۳.۰۵ و GPT-o1 به ۶۲.۹۰ می‌رسد. Deepseek-R1-Distill با ۶۰.۰۱ عقب می‌ماند، علی‌رغم عملکرد قوی در استدلال‌های ساختاریافته در جاهای دیگر.
  • دشواری دسته‌بندی‌ها نابرابر است: بازیابی پرس‌وجوهای مربوط به ریسک آسان‌ترین است (E5-Mistral: بازخوانی ۳۳.۰۷)؛ امور مالی همچنان سخت‌ترین باقی می‌ماند (۱۵.۸۴). این موضوع با ساختار پرس‌وجو همبستگی دارد — افشای ریسک از نثر زبان طبیعی استفاده می‌کند، در حالی که جداول مالی از نمادگذاری عددی متراکم بهره می‌برند.

آنچه پابرجاست — و آنچه نیست

مشارکت اصلی این مقاله مستحکم است: این یک توزیع پرس‌وجوی واقعی از تحلیل‌گران شاغل است و مشکل اختصارات واقعی است. هر بنچمارکی که از ویکی‌پدیا یا جمع‌سپاری به سبک FinQA ساخته شده باشد، این نکته را از دست می‌دهد. ساختار ارزیابی سه سطحی — بدون بافتار، بازیابی واقع‌بینانه، بافتار ایده‌آل — طراحی درستی است؛ این ساختار به وضوح کیفیت بازیابی را از کیفیت استدلال جدا می‌کند و شکاف باقی‌مانده در تولید را نشان می‌دهد (هنوز حدود ۳۲-۳۴٪ شکست حتی با بافتار کامل در سوالات کیفی وجود دارد).

جایی که مقاله ضعیف‌ترین عملکرد را دارد، در بازتولیدپذیری (Reproducibility) است. در زمان انتشار، دیتاست به صورت عمومی در دسترس نبود — نویسندگان بیان کردند که "قصد دارند آن را بعداً به صورت عمومی منتشر کنند". این یک مشکل بزرگ برای یک مقاله کارگاهی است که خود را به عنوان یک استاندارد ارزیابی معرفی می‌کند. بنچمارک‌هایی که منتشر نمی‌شوند، بنچمارک نیستند؛ آن‌ها مطالعه موردی هستند. از آنجایی که این مقاله در ICAIF 2025 ظاهر شده، ممکن است انتشار آن دنبال شده باشد، اما نسخه arXiv این موضوع را تأیید نمی‌کند.

ارزیابی بازیابی نیز تنها از چهار مدل تک‌مرحله‌ای (BM25, GTE, mE5, E5-Mistral) استفاده می‌کند. هیچ بازیابی ترکیبی، هیچ گسترش پرس‌وجویی، هیچ HyDE یا مرحله بازنویسی که به طور خاص مشکل اختصارات را هدف قرار دهد، وجود ندارد. با توجه به اینکه نویسندگان شکاف ناشی از اختصارات را دقیقاً مشخص کرده‌اند، تعجب‌آور است که راه حل بدیهی را آزمایش نمی‌کنند: گسترش پرس‌وجو (مثلاً تبدیل "GOOGL" به "Alphabet Inc.") قبل از بازیابی. این آزمایش غایب است.

نتایج تولید مستحق خواندن دقیق‌تری است. عملکرد ۹-۱۰ درصدی بدون بافتار یک حد پایین مفید نیست — عملاً صفر است — اما سقف ۶۰-۶۸ درصدی اوراکل آموزنده‌تر از آن چیزی است که به نظر می‌رسد. حتی با داشتن پاراگراف صحیح در دست، بهترین مدل‌ها در تقریباً یک‌سوم سوالات کیفی و چهارپنجم محاسبات ترکیبی شکست می‌خورند. این سقف مهم است: به این معنی است که بازیابی به تنهایی نمی‌تواند مشکل را حل کند.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

توزیع پرس‌وجوها در FinDER به خوبی با نحوه تعامل کاربران Beancount با یک عامل دفتر کل (Ledger Agent) مطابقت دارد. کاربری که سال‌ها حساب‌های خود را نگه داشته است، پرس‌وجوهای مختصر و بافت‌محور تایپ می‌کند — "AMZN card Q3 reimb؟" به جای "بازپرداخت‌های کارت اعتباری آمازون در سه ماهه سوم چقدر است؟". مدل‌های جاسازی استاندارد در بازیابی ورودی‌های صحیح شکست خواهند خورد زیرا آن‌ها بر روی متن‌های تمیز زبان طبیعی آموزش دیده‌اند. افت دقت ۸.۲ واحدی از پرس‌وجوهای تمیز به واقعی احتمالاً برای حوزه دفتر کل شخصی محافظه‌کارانه است، جایی که علائم اختصاری خاصِ فرد ("prop mgmt fee" برای "property management fee") حتی از اختصارات استاندارد SEC هم از داده‌های آموزشی دورتر هستند.

سقف بازخوانی بافتار ۲۵.۹۵ درصدی در E5-Mistral یک تابع اجباری است: هر خط لوله RAG در Beancount باید برای کسر بزرگی از شواهد از دست رفته بودجه‌بندی کند. یک نتیجه این است که بازیابی مجدد با بازخوانی بالا (چندین گذر، فرمولاسیون‌های پرس‌وجوی متنوع) مهم‌تر از فشار آوردن برای بهبود F1 در یک گذر واحد است. نتیجه دیگر این است که عادی‌سازی پرس‌وجو — نگاشت کوته‌نوشت‌های کاربر به نام‌های متعارف حساب‌ها قبل از بازیابی — باید یک مرحله پیش‌پردازش صریح باشد و به مدل جاسازی واگذار نشود.

دقت ۲۰ درصدی محاسبات ترکیبی حتی با بافتار ایده‌آل، سیگنال جداگانه‌ای است: برای وظایف محاسباتی Beancount، گلوگاه تولید، استدلال است و نه بازیابی. برون‌سپاری به سبک PAL (تولید کدهای محاسباتی پایتون به جای محاسبات متنی آزاد) همچنان پاسخ درستی برای وظایف عددی است، صرف نظر از اینکه بازیابی چقدر خوب شود.

برای مطالعه بیشتر

  • Fin-RATE (arXiv:2602.07294) — بنچمارک مکمل برای ردیابی چنددوره‌ای در پرونده‌های SEC؛ دقت در وظایف زمانی ۱۸.۶۰٪ کاهش می‌یابد، که مستقیماً همان مشکل دفتر کل چندساله Beancount است.
  • IRCoT (arXiv:2212.10509, ACL 2023) — درهم‌تنیدگی بازیابی با استدلال زنجیره افکار (CoT)؛ ساختار بازیابی چندگذر مستقیماً به بازخوانی پایین تک‌گذر که FinDER افشا می‌کند، می‌پردازد.
  • گسترش پرس‌وجو با LLMها برای بازیابی تخصصی دامنه — هنوز هیچ مقاله بنچمارک واحدی این موضوع را به خوبی پوشش نمی‌دهد، اما شکاف اختصارات در FinDER آن را به یک اولویت تحقیقاتی درجه اول تبدیل می‌کند؛ جستجو برای "HyDE financial domain" و "query expansion SEC filings 2025" نقطه شروع مناسبی است.