Fin-RATE: شکست مدلهای زبانی بزرگ در تحلیل مالی دورهای و بین-موجودیتی
روند بنچمارکهای مدلهای زبانی بزرگ (LLM) مالی مدام در حال گسترش است و Fin-RATE واضحترین مثالی است که نشان میدهد وقتی از مدلها میخواهیم کاری را انجام دهند که تحلیلگران واقعی انجام میدهند - یعنی ردیابی یک شرکت نه فقط در یک سند واحد، بلکه در چندین دوره زمانی و در مقایسه با همتایان صنعتیاش - چه اتفاقی میافتد.
مقاله
مقاله Fin-RATE که در فوریه ۲۰۲۶ توسط یدونگ جیانگ، جونرونگ چن و همکارانشان در دانشگاه ییل و موسسات همکار منتشر شد، بنچمارکی را معرفی میکند که از ۲۴۷۲ سند SEC مربوط به ۴۳ شرکت در ۳۶ صنعت بین سالهای ۲۰۲۰ تا ۲۰۲۵ ساخته شده است. این بنچمارک ۷۵۰۰ جفت پرسش و پاسخ منتخب کارشناسان را در سه نوع وظیفه سازماندهی میکند که منعکسکننده جریان کار تحلیلگران حرفهای است: DR-QA (جزئیات و استدلال در یک سند واحد)، EC-QA (مقایسه بین-موجودیتی دو شرکت در یک موضوع مشترک) و LT-QA (ردیابی طولی یک شرکت در دورههای گزارشدهی مختلف). هر نوع وظیفه شامل ۲۵۰۰ سوال است. ارزیابی روی ۱۷ مدل زبانی بزرگ انجام شده است - از مدلهای منبعبسته شامل GPT-4.1 و GPT-5 گرفته تا مدلهای عمومی منبعباز مانند DeepSeek-V3 و Llama-3.3-70B، و مدلهای تخصصی مالی مانند Fin-R1، Fino1-14B، FinanceConnect-13B و TouchstoneGPT-7B. امتیازدهی از یک چارچوب یکپارچه "LLM-بهعنوان-داور" با سه داور مستقل (GPT-5، DeepSeek-V3.2، Qwen3-235B) استفاده میکند که هر پاسخ را بر اساس صحت و پنج بعد تحلیلی رتبهبندی میکنند.
ایدههای کلیدی
- با افزایش پیچیدگی وظایف، عملکرد کاهش مییابد: دقت از DR-QA (تکسندی) به LT-QA (طولی) ۱۸.۶۰ درصد و از DR-QA به EC-QA (بین-موجودیتی) ۱۴.۳۵ درصد کاهش مییابد (میانگین تمام ۱۷ مدل).
- مدل GPT-5 با جستجوی وب بهترین عملکرد را دارد، اما اوج دقت آن در هر سه نوع وظیفه تنها حدود ۴۳ تا ۴۴ درصد است؛ رقمی ناامیدکننده برای بنچمارکی که قرار است بازتابدهنده جریان کار تحلیلگران واقعی باشد.
- مدل Fin-R1 که یک مدل استدلالی تخصصی در امور مالی است، در DR-QA به ۵۷.۴۸ درصد میرسد اما در EC-QA به ۳.۳۲ درصد سقوط میکند؛ افتی ۵۴ امتیازی که بسیار فراتر از کاهش عملکرد در مدلهای عمومی است.
- در تنظیمات RAG، عملکرد تمام مدلها به زیر ۲۷ درصد میرسد، در حالی که در حالت "زمینه طلایی" عملکرد تا ۵۷.۴۸ درصد است؛ این نشان میدهد که گلوگاه اصلی نه خود مدل، بلکه خط لوله بازیابی (retrieval pipeline) است.
- مقاله یک طبقهبندی ۱۳ نوعی از خطاها را در چهار دسته معرفی میکند: توهم و تضاد، خطاهای عددی و معنایی خاصِ مالی، خطاهای درک پرسوجو/زمینه و شکستهای سطح بازیابی. "فقدان شواهد" مسئول ۷۵.۴۴ درصد خطاها در وظیفه EC-QA تحت سیستم RAG است.
- مدلهای تخصصی مالی علیرغم تسلط بهتر بر واژگان مالی، نرخ توهم سیستماتیک بالاتری نسبت به مدلهای عمومی در وظایف پیچیده نشان میدهند.
چه چیزی تایید میشود — و چه چیزی نه
ساختار سه مسیری این بنچمارک واقعاً خوب طراحی شده است. اکثر بنچمارکهای مالی (مانند FinQA، TAT-QA، FinanceBench) پرسش و پاسخ را به عنوان یک وظیفه تکسندی در نظر میگیرند. Fin-RATE یکی از اولین مواردی است که صراحتاً مقایسه بین-موجودیتی و ردیابی طولی را به عنوان وظایف درجه اول مدلسازی میکند و نتایج نشاندهنده یک شکاف اساسی است: مدلهای زبانی فعلی پرسش و پاسخهای افشای مالی منفرد را به شکل قابل قبولی مدیریت میکنند، اما به محض اینکه نیاز به سنتز اطلاعات از میان اسناد، موجودیتها یا دورههای زمانی مختلف باشد، از هم میپاشند.
سقوط Fin-R1 خیرهکنندهترین یافته مقاله است و فکر میکنم به آن کمتوجهی شده است. یک مدل بهینهسازی شده برا ی امور مالی که در استخراج تکسندی برتری دارد، ظاهراً خود را در یک بنبست آموزش داده است: این مدل الگوهای پاسخگویی در یک سند را یاد گرفته، نه استراتژیهای استدلالی برای مرتبط کردن موجودیتها و دورههای زمانی. این یک هشدار جدی علیه تنظیم دقیق (fine-tuning) محدود به دامنه بدون نظارت صریح بر استدلال چندسندی است. مدل احتمالاً روی الگوی سطحی "عدد را در سند پیدا کن" بیشبرازش (overfit) شده و هیچ مسیر تعمیمدهی برای "مقایسه این عدد با عدد معادل در سند دیگری از یک شرکت دیگر" ندارد.
با این حال، نگرانیهای متدولوژیکی وجود دارد که باید به آنها اشاره کرد. GPT-5 همزمان یکی از مدلهای مورد ارزیابی و یکی از سه داوری است که به پاسخها امتیاز میدهد. نویسندگان برای کاهش سوگیری فردی از سه داور استفاده کردهاند که کمککننده است، اما همپوشانی داور-مدل با قویترین مدل مورد ارزیابی نگرانکننده است. مقاله توافق بالای بین داوران را گزارش میکند اما به طور جداگانه مشخص نمیکند که چه بخشی از پاسخهای GPT-5 توسط خود GPT-5 امتیازدهی شده و آیا امتیازهای خودارزیابی GPT-5 به طور سیستماتیک با دو داور دیگر تفاوت دارد یا خیر. هرگونه سوگیری در خودارزیابی میتواند نتیجه نهایی بهترین مدل مطالعه را بیش از حد نشان دهد.
نمونه ۴۳ شرکتی نیز اندک است. پ وشش انواع اسناد ستودنی است (10-K, 10-Q, 8-K, 6-K, DEF 14A و چندین سری S و SC)، اما همان ۴۳ شرکت در تمام وظایف تکرار میشوند. مدلهایی که افشاهای این شرکتها را در مرحله پیشآموزش دیدهاند، مزیتی غیرقابل اندازهگیری دارند و مقاله شامل هیچگونه تحلیل آلودگی دادهها نیست.
یافتههای مربوط به بازیابی مهم اما ناقص هستند. مقاله شناسایی میکند که عملکرد RAG به دلیل شکست در بازیابی، حدود ۳۰ امتیاز نسبت به زمینه طلایی سقوط میکند. اما تنها یک تنظیمات بازیابی واحد را بنچمارک میکند؛ یعنی با شکست بازیابی به عنوان یک تشخیص برخورد میکند تا چیزی که بخواهد آن را به طور سیستماتیک تغییر دهد. یک مقاله تکمیلی که معماریهای مختلف بازیابی را روی Fin-RATE بررسی کند، بسیار کاربردیتر خواهد بود.
چرا این موضوع برای هوش مصنوعی مالی مهم است
حسابرس دفترکل Beancount دقیقاً به همان دو قابلیتی نیاز دارد که Fin-RATE نشان داد دچار مشکل هستند: ردیابی طولی (این حساب در طول سالهای مالی چگونه تغییر کرد؟) و مقایسه بین-موجودیتی (آیا ترازنامه این شرکت فرعی با صورت مالی تلفیقی مطابقت دارد؟). افت دقت ۱۸.۶۰ درصدی در ردیابی زمانی، عدد ملموسی است که باید انتظارات ما را از هر عامل Beancount که در چندین دوره گزارشدهی استدلال میکند، تنظیم کند. اگر مدلهای پیشرو در پرسش و پاسخ طولی SEC با "زمینه طلایی" در ۴۳ درصد شکست میخورند، یک عامل Beancount که در تاریخچههای چندساله دفترکل پیمایش میکند باید با بازیابی صریح، ارجاع زمانی و امکان ارجاع به انسان طراحی شود - نه فقط با استنتاج مستقیم مدل زبانی.
یافتهی مربوط به غلبه بازیابی، بیش از همه برای اولویتبندی طراحی سیستم اهمیت دارد. اگر عملکرد در حالت زمینه طلایی تقریباً دو برابر عملکرد RAG است، سرمایهگذاری درست روی خرد کردن بهتر متن (chunking)، انتخاب قطعات و بازیابی است - نه یک مدل زبانی پایه قدرتمندتر. این مشابه همان چیزی است که DocFinQA برای اسناد طولانی SEC پیدا کرد: گلوگاه اصلی، خط لوله اطراف مدل است.
هشدار مربوط به Fin-R1 نیز مستقیماً در مورد Beancount صدق میکند. تنظیم دقیق روی نحو DSL زبان Beancount و الگوهای تراکنش ممکن است مدلی تولید کند که تولید ورودیهای ساده را به خوبی انجام دهد، اما در فرآیند تطبیق چند-حسابی و چند-دورهای که حسابرسی را مفید میکند، با شکست مواجه شود. تخصصگرایی بدون آموزش استدلال چندسندی دقیقاً به همان روشهایی که Fin-RATE اندازهگیری میکند، شکننده است.
چه چیزی را بعداً بخوانیم
- Fin-R1 (arXiv:2503.16252) — برای درک اینکه چه تنظیمات آموزشی چنین عملکرد ضعیفی را در اسناد چندگانه ایجاد کرده و آیا استدلال چندسندی اصلاً جزو اهداف بوده است یا خیر.
- FinTrace (arXiv:2604.10015) — ارزیابی در سطح مسیرِ فراخوانی ابزار توسط مدلهای زبانی در ۳۴ دسته وظایف مالی؛ این مطالعه دیدگاه پرسش و پاسخ ایستا در Fin-RATE را با تشخیص سطح فرآیند (جایی که مدلها ابزارهای درست را فراخوانی میکنند اما در استدلال روی نتایج شکست میخورند) تکمیل میکند.
- OpenHands (arXiv:2407.16741) — پلتفرم عامل باز که زیربنای ارزیابیهای TheAgentCompany است؛ درک معماری آن روشن میکند که کدام قابلیتهای پایه عاملها در دسترس بوده و کدام شکافها ناشی از دشواری وظیفه است نه محدودیتهای پلتفرم.
