پرش به محتوای اصلی

بنچ‌مارک FinMaster: چرا مدل‌های زبانی بزرگ در سواد مالی امتیاز ۹۶٪ اما در تولید صورت‌های مالی امتیاز ۳٪ کسب می‌کنند

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

مقاله FinMaster درست بعد از ReAct در صف مطالعه من قرار گرفت. اگر ReAct درباره این است که عامل‌ها (Agents) چگونه تصمیم می‌گیرند چه زمانی اقدام کنند، FinMaster پرسش دشوارتری را مطرح می‌کند: بهترین مدل‌های زبانی بزرگ (LLM) امروزی تا چه حد در انجام جریان‌های کاری واقعی حسابداری که این عامل‌ها باید اجرا کنند، موفق هستند؟ این مقاله که در مه ۲۰۲۵ ارائه شده، اولین بنچ‌مارکی است که دیده‌ام کل خط لوله مالی شامل سواد مالی، حسابداری، حسابرسی و مشاوره را در یک چارچوب ارزیابی منسجم پوشش می‌دهد.

درباره مقاله

2026-04-18-finmaster-financial-workflows-llm-benchmark

جیانگ و همکاران، FinMaster (arXiv:2505.13533) را معرفی می‌کنند؛ یک بنچ‌مارک سه بخشی برای ارزیابی LLMها در جریان‌های کاری مالی. اولین بخش، FinSim، یک تولیدکننده داده‌های مصنوعی است که پنج نوع شرکت را شبیه‌سازی کرده و تراکنش‌های دفتر کل (هم صحیح و هم به عمد اشتباه) را برای ایجاد سناریوهای تست بدون نگرانی‌های مربوط به حریم خصوصی داده‌های واقعی تولید می‌کند. بخش دوم، FinSuite، مجموعه‌ای از ۱۸۳ وظیفه را در زمینه‌های سواد مالی، حسابداری، حسابرسی و مشاوره با سطوح دشواری مختلف ارائه می‌دهد. بخش سوم، FinEval، یک رابط امتیازدهی واحد را فراهم می‌کند. نویسندگان ادعا می‌کنند که FinMaster اولین بنچ‌مارکی است که کل مسیر مالی را با تولید داده‌های نامحدود و ایمن از نظر حریم خصوصی پوشش می‌دهد—ادعایی که در مقایسه با پیشینیان ایستا مانند FinBen و FinanceBench کاملاً معتبر است.

ایده‌های کلیدی

  • سقوط در برابر پیچیدگی: مدل‌ها در سواد مالی (خواندن ترازنامه‌ها و صورت‌های سود و زیان) به طور متوسط امتیاز حدود ۹۶٪ کسب می‌کنند، اما در محاسبات پایه حسابداری به ۴۰ تا ۶۰٪ سقوط می‌کنند، در وظایف حسابداری چند مرحله‌ای به زیر ۲۰٪ می‌رسند و در تولید صورت‌های مالی تنها ۳٪ امتیاز می‌گیرند. سواد مالی و مهارت محاسباتی یکسان نیستند.
  • انتشار خطا بسیار شدید است: در وظایف مشاوره‌ای، دقت محاسبات تک‌معیاری به طور متوسط ۵۸٪ بود؛ اما در سناریوهای چندمعیاری که این محاسبات را به هم زنجیره می‌کردند، دقت به ۳۷٪ کاهش یافت—افتی ۲۱ واحدی به دلیل ترکیب خطاهای کوچک.
  • جدول رده‌بندی در صدر بسیار فشرده است: مدل‌های o3-mini (میانگین ۰.۷۳)، Claude-3.7-Sonnet (۰.۷۲) و DeepSeek-V3-2503 (۰.۷۰) بسیار به هم نزدیک هستند، که نشان می‌دهد این بنچ‌مارک چالش‌برانگیز است اما هنوز به سقف توانایی‌ها نرسیده است.
  • حسابداری سخت‌ترین حوزه است: در تمام هفت مدل ارزیابی شده، امتیازات حسابداری تنها بین ۰.۰۴ تا ۰.۳۵ متغیر بود—بسیار پایین‌تر از هر دسته دیگر. امتیاز ۳٪ در تولید صورت‌های مالی به این معناست که LLMها هنوز نمی‌توانند با اطمینان، یک دفتر روزنامه تراکنش را به یک صورت مالی منسجم تبدیل کنند.
  • مدل‌های استدلالی در حاشیه کمک می‌کنند: o3-mini به طور کلی پیشتاز است، اما نه به طور قاطع. استدلال به سبک زنجیره فکر (Chain-of-thought) واقعی است اما نمی‌تواند شکاف ۹۳ واحدی بین سواد مالی و تولید صورت‌های مالی را پر کند.
  • FinSim تست استرس در مقیاس بالا را ممکن می‌سازد: بنچ‌مارک‌های قبلی از مجموعه‌داده‌های ثابت و ایستا استفاده می‌کردند که به مرور زمان در معرض آلودگی (دیده شدن توسط مدل در مرحله آموزش) قرار می‌گیرند. FinMaster می‌تواند سناریوهای جدید را در لحظه تولید کند، که برای مطالعه اینکه آیا مدل‌ها مفاهیم را تعمیم می‌دهند یا صرفاً حفظ می‌کنند، حیاتی است.

چه چیزی معتبر است — و چه چیزی نیست

نتیجه اصلی—اینکه استدلال مالی چند مرحله‌ای به شدت افت می‌کند—باورکردنی است و با الگوهای مشاهده شده در LOG-001 (FinBen) و LOG-002 (Toolformer) مطابقت دارد. من یافته‌های مربوط به انتشار خطا را قبول دارم؛ این موضوع از نظر ساختاری مشابه اتفاقی است که در هر زنجیره محاسباتی رخ می‌دهد. تولیدکننده FinSim یک مشارکت روش‌شناختی واقعی است: بنچ‌مارکی که می‌تواند سناریوهای تازه تولید کند، در برابر مشکل حفظ کردن که گریبان‌گیر مجموعه‌داده‌های مالی ایستا شده، مقاومت می‌کند.

آنچه کمتر مرا متقاعد می‌کند: ۱۸۳ وظیفه برای بنچ‌مارکی که ادعای پوشش جامع دارد، کم است. سی و پنج وظیفه حسابرسی نمی‌تواند حوزه‌ای به وسعت حسابرسی مالی را توصیف کند، جایی که طبقه‌بندی خطاهای دنیای واقعی شامل صدها مورد است. این مقاله کل این حوزه را به ۱۲ نوع خطای پایه خلاصه کرده است که ناهمگونی یافته‌های واقعی حسابرسی را پنهان می‌کند.

همچنین، تک‌امتیاز تجمیعی در جدول رده‌بندی، الگوهای مهم بین‌حوزه‌ای را مخفی می‌کند. حسابرسی و مشاوره پروفایل‌های مدل‌به‌مدل بسیار متفاوتی دارند و میانگین گرفتن از آن‌ها عددی تولید می‌کند که نقل کردنش آسان اما عمل کردن بر اساس آن دشوار است.

محدودیت داده‌های مصنوعی یک شمشیر دو لبه است. FinSim داده‌های دفتر کل تمیز و با ساختار مناسب تولید می‌کند. سیستم‌های حسابداری واقعی حامل دهه‌ها انتخاب‌های کدگذاری قدیمی، اثرات گرد کردن ارز و تعدیل‌های خارج از چرخه هستند که هیچ شبیه‌سازی آن‌ها را ثبت نمی‌کند. امتیاز ۳٪ در تولید صورت‌های مالی مصنوعی ناامیدکننده است؛ همین اندازه‌گیری روی دفاتر نامنظم یک شرکت واقعی احتمالاً حتی ناامیدکننده‌تر خواهد بود. همچنین مقاله فقط متنی است—نویسندگان شکاف چندوجهی (تصویری) را می‌پذیرند اما آن را اندازه‌گیری نمی‌کنند. اکثر کارهای حسابداری در واقع در PDFهای اسکن شده و صفحات گسترده (Excel) انجام می‌شود.

چرا این موضوع برای هوش مصنوعی در امور مالی مهم است

این مستقیم‌ترین مقاله‌ای است که از زمان FinBen برای اهداف Bean Labs خوانده‌ام. مورد کاربرد Beancount اساساً زیرمجموعه‌ای از چیزی است که FinMaster ارزیابی می‌کند: حسابداری در سطح تراکنش، محاسبات چند مرحله‌ای و تولید گزارش. امتیاز ۳٪ در تولید صورت‌های مالی عددی هشداردهنده است. این به من می‌گوید که حتی با یک ساختار عامل ReAct با طراحی خوب، توانایی مدل زیربنایی برای سنتز یک ترازنامه صحیح Beancount از یک دفتر روزنامه تراکنش، بدون تنظیم دقیق (fine-tuning) تخصصی یا ساختارهای بازیابی (retrieval)، قابل اعتماد نیست.

نتیجه انتشار خطا مستقیماً با ایمنی ثبت داده‌ها (write-back) مرتبط است. اگر یک زنجیره وظیفه مشاوره‌ای ۲۱ واحد از دقت خود را از مرحله اول به مرحله دوم از دست بدهد، پس یک عامل خودگردان Beancount که یک تطبیق (reconciliation) سه مرحله‌ای را انجام می‌دهد، در هر مرحله در حال ترکیب کردن خطاهاست. این استدلال قوی برای شکستن وظایف عامل به کوچکترین عملیات اتمی ممکن و تأیید نتایج میانی به جای تکیه بر استدلال سرتاسری (end-to-end) LLM است.

FinSim همچنین مسیر مشخصی را برای Bean Labs پیشنهاد می‌دهد: یک شبیه‌ساز تراکنش مخصوص Beancount می‌تواند موارد تست برچسب‌گذاری شده‌ای را برای ارزیابی و تنظیم دقیق مدل‌ها در عملیات دفتر کل تولید کند. معماری آن از قبل وجود دارد؛ فقط باید این حوزه به آن منتقل شود.

آنچه باید در ادامه بخوانید

  • تحلیل صورت‌های مالی با مدل‌های زبانی بزرگ (الکس کیم، ماکسیمیلیان مون، والری نیکولایف؛ arXiv:2407.17866) — توانایی GPT-4 را در پیش‌بینی جهت سود از روی صورت‌های مالی آزمایش می‌کند و به برابری با مدل‌های یادگیری ماشین محدود می‌رسد؛ یک نقطه مقابل مفید برای اعداد ناامیدکننده FinMaster در تولید صورت‌های مالی.
  • FinAuditing: یک بنچ‌مارک چند-سندی با ساختار طبقه‌بندی مالی (arXiv:2510.08886) — ارزیابی دقیق‌تر حسابرسی با استدلال چند-سندی؛ مکمل پوشش پراکنده ۳۵ وظیفه‌ای FinMaster در حسابرسی.
  • AuditBench: بنچ‌مارکی برای مدل‌های زبانی بزرگ در حسابرسی صورت‌های مالی (Springer 2025) — داده‌های تراکنشی سنتز شده را با جداول مالی واقعی ترکیب می‌کند تا تشخیص و توضیح خطا را آزمایش کند؛ متدولوژی مستقیماً قابل مقایسه با ماژول حسابرسی FinMaster.