FinDER: پرسوجوهای واقعی تحلیلگران شکاف بازخوانی ۷۴ درصدی را در RAG مالی فاش میکنند
FinDER (arXiv:2504.15800) یک بنچمارک بازیابی است که حول یک مشاهده ساده اما کمتر قدردانی شده ساخته شده است: پرسوجوهایی که متخصصان مالی واقعی تایپ میکنند هیچ شباهتی به سوالات صیقلخورده در بنچمارکهای آکادمیک ندارند. من آن را میخوانم زیرا در نقطه تلاقی دو موضوعی است که دنبال میکردم — شکاف بازیابی در هوش مصنوعی مالی و مشکل واقعگرایی عملی که DocFinQA و FinanceBench شروع به افشای آن کردند.
مقاله
چانیول چوی، جیهون کوون و همکاران در یک شرکت هوش مصنوعی مالی، مجموعهای از دادهها شامل ۵,۷۰۳ سهتایی پرسوجو-شواهد-پاسخ که توسط کارشناسان حاشیهنویسی شده و از یک سرویس پرسش و پاسخ تحلیلگر صندوق پوشش ریسک واقعی تهیه شده است، ارائه میدهند. اسناد شامل پروندههای فرم 10-K از ۴۹۰ شرکت شاخص S&P 500 هستند که از SEC EDGAR جمعآوری شدهاند. آنچه FinDER را از بنچمارکهای قبلی متمایز میکند، بخش پرسوجو است: ۸۹.۸۶٪ از پرسوجوها شامل سه یا چند اختصار یا کوتهنوشت تخصصی حوزه هستند. به جای "درآمد کل شرکت X برای سال مالی ۲۰۲۳ چقدر است؟"، یک تحلیلگر واقعی ممکن است تایپ کند "GOOGL 10-K FY23 revs breakdown by segment". این دیتاست در کارگاه ICLR 2025 در مورد پیشرفتهای هوش مصنوعی مالی منتشر شد و بعداً در ICAIF 2025 ظاهر گردید.
ایدههای کلیدی
- بازخوانی بازیابی در تمام سطوح به طور تکاندهندهای پایین است: E5-Mistral (بهترین بازیاب متراکم) در مجموع تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست میآورد؛ BM25 به ۱۱.۶۸٪ میرسد. دسته "مالی" (Financials) — که مستقیمترین ارتباط را با حسابداری دارد — سختترین دسته است: به ترتیب ۱۵.۸۴٪ و ۶.۴۲٪.
- ابهام در پرسوجو به تنهایی ۸.۲ واحد از دقت میکاهد: نویسندگان با آزمایش E5-Mistral بر روی ۵۰۰ پرسوجو، جملات بازنویسی شده با ساختار مناسب (دقت ۳۳.۹) را با پرسوجوهای مختصر واقعی (دقت ۲۵.۷) مقایسه میکنند. این شکاف کاملاً مربوط به مدیریت اختصارات/کوتهنوشتهاست و نه پیچیدگی سند.
- کیفیت بازیابی گلوگاه اصلی برای تولید (Generation) است: مدلهای زبانی بزرگ (LLM) بدون بافتار امتیازی نزدیک به صفر (۹-۱۰٪ پاسخ صحیح) میگیرند؛ با ۱۰ پاراگراف برتر بازیابی شده به ۲۹-۳۴٪ میرسند؛ و با بافتار ایدهآل (اوراکل) به ۶۰-۶۸٪ جهش میکنند. این شکاف ۳۵ واحدی بین شرایط واقعبینانه و شرایط ایدهآل، بزرگتر از شکاف بین مدلهای متنباز و مدلهای پیشرو (Frontier) است.
- محاسبات ترکیبی حتی با بازیابی خوب هم شکست میخورند: وظایف محاسباتی چند مرحلهای (پرسوجوهای ترکیبی) تنها به حدود ۲۰٪ صحت در هر چهار مدل — Claude-3.7-Sonnet، GPT-o1، DeepSeek-R1-Distill و Qwen-QWQ — حتی با ۱۰ پاراگراف برتر بازیابی شده میرسند. GPT-o1 در وظایف ضرب با ۴۲.۹۰٪ پیشتاز است اما در تقسیم به ۲۷.۷۸٪ سقوط میکند.
- رتبهبندی مجدد توسط LLM بهبود متوسط اما ثابتی ایجاد میکند: با اجازه دادن به مدلها برای رتبهبندی مجدد ۱۰ نتیجه برتر E5-Mistral قبل از پاسخگویی، Claude-3.7-Sonnet به F1 معادل ۶۳.۰۵ و GPT-o1 به ۶۲.۹۰ میرسد. Deepseek-R1-Distill با ۶۰.۰۱ عقب میماند، علیرغم عملکرد قوی در استدلالهای ساختاریافته در جاهای دیگر.
- دشواری دستهبندیها نابرابر است: بازیابی پرسوجوهای مربوط به ریسک آسانترین است (E5-Mistral: بازخوانی ۳۳.۰۷)؛ امور مالی همچنان سختترین باقی میماند (۱۵.۸۴). این موضوع با ساختار پرسوجو همبستگی دارد — افشای ریسک از نثر زبان طبیعی استفاده میکند، در حالی که جداول مالی از نمادگذاری عددی متراکم بهره میبرند.