پرش به محتوای اصلی

Fin-RATE: شکست مدل‌های زبانی بزرگ در تحلیل مالی دوره‌ای و بین-موجودیتی

· زمان مطالعه 8 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

روند بنچ‌مارک‌های مدل‌های زبانی بزرگ (LLM) مالی مدام در حال گسترش است و Fin-RATE واضح‌ترین مثالی است که نشان می‌دهد وقتی از مدل‌ها می‌خواهیم کاری را انجام دهند که تحلیل‌گران واقعی انجام می‌دهند - یعنی ردیابی یک شرکت نه فقط در یک سند واحد، بلکه در چندین دوره زمانی و در مقایسه با همتایان صنعتی‌اش - چه اتفاقی می‌افتد.

مقاله

2026-06-29-fin-rate-real-world-financial-analytics-tracking-evaluation-benchmark

مقاله Fin-RATE که در فوریه ۲۰۲۶ توسط یدونگ جیانگ، جونرونگ چن و همکارانشان در دانشگاه ییل و موسسات همکار منتشر شد، بنچ‌مارکی را معرفی می‌کند که از ۲۴۷۲ سند SEC مربوط به ۴۳ شرکت در ۳۶ صنعت بین سال‌های ۲۰۲۰ تا ۲۰۲۵ ساخته شده است. این بنچ‌مارک ۷۵۰۰ جفت پرسش و پاسخ منتخب کارشناسان را در سه نوع وظیفه سازماندهی می‌کند که منعکس‌کننده جریان کار تحلیل‌گران حرفه‌ای است: DR-QA (جزئیات و استدلال در یک سند واحد)، EC-QA (مقایسه بین-موجودیتی دو شرکت در یک موضوع مشترک) و LT-QA (ردیابی طولی یک شرکت در دوره‌های گزارش‌دهی مختلف). هر نوع وظیفه شامل ۲۵۰۰ سوال است. ارزیابی روی ۱۷ مدل زبانی بزرگ انجام شده است - از مدل‌های منبع‌بسته شامل GPT-4.1 و GPT-5 گرفته تا مدل‌های عمومی منبع‌باز مانند DeepSeek-V3 و Llama-3.3-70B، و مدل‌های تخصصی مالی مانند Fin-R1، Fino1-14B، FinanceConnect-13B و TouchstoneGPT-7B. امتیازدهی از یک چارچوب یکپارچه "LLM-به‌عنوان-داور" با سه داور مستقل (GPT-5، DeepSeek-V3.2، Qwen3-235B) استفاده می‌کند که هر پاسخ را بر اساس صحت و پنج بعد تحلیلی رتبه‌بندی می‌کنند.

ایده‌های کلیدی

  • با افزایش پیچیدگی وظایف، عملکرد کاهش می‌یابد: دقت از DR-QA (تک‌سندی) به LT-QA (طولی) ۱۸.۶۰ درصد و از DR-QA به EC-QA (بین-موجودیتی) ۱۴.۳۵ درصد کاهش می‌یابد (میانگین تمام ۱۷ مدل).
  • مدل GPT-5 با جستجوی وب بهترین عملکرد را دارد، اما اوج دقت آن در هر سه نوع وظیفه تنها حدود ۴۳ تا ۴۴ درصد است؛ رقمی ناامیدکننده برای بنچ‌مارکی که قرار است بازتاب‌دهنده جریان کار تحلیل‌گران واقعی باشد.
  • مدل Fin-R1 که یک مدل استدلالی تخصصی در امور مالی است، در DR-QA به ۵۷.۴۸ درصد می‌رسد اما در EC-QA به ۳.۳۲ درصد سقوط می‌کند؛ افتی ۵۴ امتیازی که بسیار فراتر از کاهش عملکرد در مدل‌های عمومی است.
  • در تنظیمات RAG، عملکرد تمام مدل‌ها به زیر ۲۷ درصد می‌رسد، در حالی که در حالت "زمینه طلایی" عملکرد تا ۵۷.۴۸ درصد است؛ این نشان می‌دهد که گلوگاه اصلی نه خود مدل، بلکه خط لوله بازیابی (retrieval pipeline) است.
  • مقاله یک طبقه‌بندی ۱۳ نوعی از خطاها را در چهار دسته معرفی می‌کند: توهم و تضاد، خطاهای عددی و معنایی خاصِ مالی، خطاهای درک پرس‌وجو/زمینه و شکست‌های سطح بازیابی. "فقدان شواهد" مسئول ۷۵.۴۴ درصد خطاها در وظیفه EC-QA تحت سیستم RAG است.
  • مدل‌های تخصصی مالی علیرغم تسلط بهتر بر واژگان مالی، نرخ توهم سیستماتیک بالاتری نسبت به مدل‌های عمومی در وظایف پیچیده نشان می‌دهند.

چه چیزی تایید می‌شود — و چه چیزی نه

ساختار سه مسیری این بنچ‌مارک واقعاً خوب طراحی شده است. اکثر بنچ‌مارک‌های مالی (مانند FinQA، TAT-QA، FinanceBench) پرسش و پاسخ را به عنوان یک وظیفه تک‌سندی در نظر می‌گیرند. Fin-RATE یکی از اولین مواردی است که صراحتاً مقایسه بین-موجودیتی و ردیابی طولی را به عنوان وظایف درجه اول مدل‌سازی می‌کند و نتایج نشان‌دهنده یک شکاف اساسی است: مدل‌های زبانی فعلی پرسش و پاسخ‌های افشای مالی منفرد را به شکل قابل قبولی مدیریت می‌کنند، اما به محض اینکه نیاز به سنتز اطلاعات از میان اسناد، موجودیت‌ها یا دوره‌های زمانی مختلف باشد، از هم می‌پاشند.

سقوط Fin-R1 خیره‌کننده‌ترین یافته مقاله است و فکر می‌کنم به آن کم‌توجهی شده است. یک مدل بهینه‌سازی شده برای امور مالی که در استخراج تک‌سندی برتری دارد، ظاهراً خود را در یک بن‌بست آموزش داده است: این مدل الگوهای پاسخگویی در یک سند را یاد گرفته، نه استراتژی‌های استدلالی برای مرتبط کردن موجودیت‌ها و دوره‌های زمانی. این یک هشدار جدی علیه تنظیم دقیق (fine-tuning) محدود به دامنه بدون نظارت صریح بر استدلال چندسندی است. مدل احتمالاً روی الگوی سطحی "عدد را در سند پیدا کن" بیش‌برازش (overfit) شده و هیچ مسیر تعمیم‌دهی برای "مقایسه این عدد با عدد معادل در سند دیگری از یک شرکت دیگر" ندارد.

با این حال، نگرانی‌های متدولوژیکی وجود دارد که باید به آن‌ها اشاره کرد. GPT-5 همزمان یکی از مدل‌های مورد ارزیابی و یکی از سه داوری است که به پاسخ‌ها امتیاز می‌دهد. نویسندگان برای کاهش سوگیری فردی از سه داور استفاده کرده‌اند که کمک‌کننده است، اما همپوشانی داور-مدل با قوی‌ترین مدل مورد ارزیابی نگران‌کننده است. مقاله توافق بالای بین داوران را گزارش می‌کند اما به طور جداگانه مشخص نمی‌کند که چه بخشی از پاسخ‌های GPT-5 توسط خود GPT-5 امتیازدهی شده و آیا امتیازهای خودارزیابی GPT-5 به طور سیستماتیک با دو داور دیگر تفاوت دارد یا خیر. هرگونه سوگیری در خودارزیابی می‌تواند نتیجه نهایی بهترین مدل مطالعه را بیش از حد نشان دهد.

نمونه ۴۳ شرکتی نیز اندک است. پوشش انواع اسناد ستودنی است (10-K, 10-Q, 8-K, 6-K, DEF 14A و چندین سری S و SC)، اما همان ۴۳ شرکت در تمام وظایف تکرار می‌شوند. مدل‌هایی که افشاهای این شرکت‌ها را در مرحله پیش‌آموزش دیده‌اند، مزیتی غیرقابل اندازه‌گیری دارند و مقاله شامل هیچ‌گونه تحلیل آلودگی داده‌ها نیست.

یافته‌های مربوط به بازیابی مهم اما ناقص هستند. مقاله شناسایی می‌کند که عملکرد RAG به دلیل شکست در بازیابی، حدود ۳۰ امتیاز نسبت به زمینه طلایی سقوط می‌کند. اما تنها یک تنظیمات بازیابی واحد را بنچ‌مارک می‌کند؛ یعنی با شکست بازیابی به عنوان یک تشخیص برخورد می‌کند تا چیزی که بخواهد آن را به طور سیستماتیک تغییر دهد. یک مقاله تکمیلی که معماری‌های مختلف بازیابی را روی Fin-RATE بررسی کند، بسیار کاربردی‌تر خواهد بود.

چرا این موضوع برای هوش مصنوعی مالی مهم است

حسابرس دفترکل Beancount دقیقاً به همان دو قابلیتی نیاز دارد که Fin-RATE نشان داد دچار مشکل هستند: ردیابی طولی (این حساب در طول سال‌های مالی چگونه تغییر کرد؟) و مقایسه بین-موجودیتی (آیا ترازنامه این شرکت فرعی با صورت مالی تلفیقی مطابقت دارد؟). افت دقت ۱۸.۶۰ درصدی در ردیابی زمانی، عدد ملموسی است که باید انتظارات ما را از هر عامل Beancount که در چندین دوره گزارش‌دهی استدلال می‌کند، تنظیم کند. اگر مدل‌های پیشرو در پرسش و پاسخ طولی SEC با "زمینه طلایی" در ۴۳ درصد شکست می‌خورند، یک عامل Beancount که در تاریخچه‌های چندساله دفترکل پیمایش می‌کند باید با بازیابی صریح، ارجاع زمانی و امکان ارجاع به انسان طراحی شود - نه فقط با استنتاج مستقیم مدل زبانی.

یافته‌ی مربوط به غلبه بازیابی، بیش از همه برای اولویت‌بندی طراحی سیستم اهمیت دارد. اگر عملکرد در حالت زمینه طلایی تقریباً دو برابر عملکرد RAG است، سرمایه‌گذاری درست روی خرد کردن بهتر متن (chunking)، انتخاب قطعات و بازیابی است - نه یک مدل زبانی پایه قدرتمندتر. این مشابه همان چیزی است که DocFinQA برای اسناد طولانی SEC پیدا کرد: گلوگاه اصلی، خط لوله اطراف مدل است.

هشدار مربوط به Fin-R1 نیز مستقیماً در مورد Beancount صدق می‌کند. تنظیم دقیق روی نحو DSL زبان Beancount و الگوهای تراکنش ممکن است مدلی تولید کند که تولید ورودی‌های ساده را به خوبی انجام دهد، اما در فرآیند تطبیق چند-حسابی و چند-دوره‌ای که حسابرسی را مفید می‌کند، با شکست مواجه شود. تخصص‌گرایی بدون آموزش استدلال چندسندی دقیقاً به همان روش‌هایی که Fin-RATE اندازه‌گیری می‌کند، شکننده است.

چه چیزی را بعداً بخوانیم

  • Fin-R1 (arXiv:2503.16252) — برای درک اینکه چه تنظیمات آموزشی چنین عملکرد ضعیفی را در اسناد چندگانه ایجاد کرده و آیا استدلال چندسندی اصلاً جزو اهداف بوده است یا خیر.
  • FinTrace (arXiv:2604.10015) — ارزیابی در سطح مسیرِ فراخوانی ابزار توسط مدل‌های زبانی در ۳۴ دسته وظایف مالی؛ این مطالعه دیدگاه پرسش و پاسخ ایستا در Fin-RATE را با تشخیص سطح فرآیند (جایی که مدل‌ها ابزارهای درست را فراخوانی می‌کنند اما در استدلال روی نتایج شکست می‌خورند) تکمیل می‌کند.
  • OpenHands (arXiv:2407.16741) — پلتفرم عامل باز که زیربنای ارزیابی‌های TheAgentCompany است؛ درک معماری آن روشن می‌کند که کدام قابلیت‌های پایه عامل‌ها در دسترس بوده و کدام شکاف‌ها ناشی از دشواری وظیفه است نه محدودیت‌های پلتفرم.