پرش به محتوای اصلی

FinAuditing: نمرات زیر ۱۴٪ مدل‌های زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL

· زمان مطالعه 6 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

FinAuditing مدل‌های زبانی بزرگ (LLM) را در برابر پیچیدگی‌های ساختاریافته گزارش‌های واقعی SEC XBRL محک می‌زند—نه جفت‌های پرسش و پاسخ صیقل‌خورده‌ای که در جداول امتیازی NLP مالی غالب هستند. من اکنون در حال مطالعه آن هستم زیرا دستور کار حسابرسی Bean Labs مدام به سوالی بازمی‌گردد که محک‌های موجود نمی‌توانند به آن پاسخ دهند: آیا یک مدل می‌تواند یک گزارش ساختاریافته کامل را در حافظه نگه دارد و سازگاری داخلی آن را تأیید کند؟

مقاله

2026-06-03-finauditing-xbrl-taxonomy-benchmark-llm

وانگ و همکاران FinAuditing را معرفی می‌کنند، محکی شامل ۱,۱۰۲ نمونه برگرفته از ۲۱۸ گزارش XBRL در SEC EDGAR، که انواع خطاهای فهرست شده توسط کمیته کیفیت داده XBRL آمریکا (DQC) را پوشش می‌دهد. XBRL فرمت ماشین‌خوانی است که SEC برای تمام گزارش‌های شرکت‌های عمومی الزامی کرده است؛ هر گزارش شامل یک سند نمونه (اعداد گزارش شده)، یک طرحواره طبقه‌بندی (مفاهیم حسابداری معتبر) و چهار پایگاه لینک—محاسبه، ارائه، تعریف و برچسب—است که نحوه ارتباط مفاهیم با یکدیگر را مشخص می‌کند. این بنچمارک سه زیروظیفه حسابرسی را عملیاتی می‌کند: تطابق معنایی مالی (FinSM، بازیابی مفهوم صحیح طبقه‌بندی برای یک واقعیت گزارش شده)، استخراج رابطه مالی (FinRE، طبقه‌بندی رابطه بین دو گره طبقه‌بندی)، و استدلال ریاضی مالی (FinMR، تأیید اینکه ارقام گزارش شده قوانین محاسباتی تعریف شده در طبقه‌بندی را رعایت می‌کنند). نمونه‌ها به طور متوسط ۳۳,۸۴۸ توکن دارند—که در حد یا فراتر از محدودیت محتوایی موثر بسیاری از مدل‌های متن‌باز است—و تمام ۱۳ مدل در حالت صفر-نمونه (zero-shot) آزمایش شده‌اند.

ایده‌های کلیدی

  • FinSM اساساً بازیابی طبقه‌بندی است: با داشتن یک واقعیت در گزارش، مفهوم درست US-GAAP را پیدا کنید. DeepSeek-V3 با نرخ ضربه ۱۲.۴۲٪ در Hit Rate@20 در صدر قرار دارد—کمتر از یک حدس درست از هر هشت حدس هنگام انتخاب از بین ۲۰ کاندیدا. GPT-4o موفق به کسب ۹.۰۹٪ می‌شود.
  • FinRE (طبقه‌بندی روابط پایگاه لینک) آسان‌ترین وظیفه است: GPT-4o به دقت ۹۱.۸۲٪ و نمره Macro F1 معادل ۹۰.۰۹ می‌رسد. اما Qwen3-32B و Fino1-14B—که هر دو به عنوان مدل‌های توانمند در امور مالی بازاریابی شده‌اند—نمره ۰.۰۰٪ کسب کردند که ظاهراً به دلیل شکست در نوع رابطه CombinationErr بوده است.
  • FinMR بی‌رحمانه است: Fino1-14B با دقت ۱۳.۸۶٪ پیشتاز است؛ اکثر مدل‌ها در درصدهای تک‌رقمی باقی مانده‌اند. تحلیل خطا ۷۰ تا ۸۳ درصد شکست‌ها را به اشتباهات محاسباتی در قوانین محاسباتی چندمرحله‌ای نسبت می‌دهد، در حالی که خطاهای قالب‌بندی ساختاری ۹ تا ۷۱ درصد را بسته به مدل شامل می‌شود.
  • داده‌های منبع، ۴,۵۴۵ پیام خطای DQC از گزارش‌های واقعی (۲۰۲۰–۲۰۲۴) هستند—نه مثال‌های تقابلی مصنوعی. این بنچمارک ۹ نوع خطای پرتکرار را انتخاب کرده که ۶۰.۳۳٪ از تخلفات واقعی DQC را پوشش می‌دهد.
  • مدل‌های تخصصی دامنه (Fino1-14B, FinR1) به طور سیستماتیک مدل‌های بزرگ عمومی را شکست نمی‌دهند؛ Fino1-14B تنها در FinMR پیشتاز است و حتی در آنجا نمره ۱۳.۸۶٪ آن به سختی بالاتر از نویز است.

چه چیزی پابرجا می‌ماند—و چه چیزی نه

این بنچمارک دقیقاً به این دلیل ارزشمند است که از فرمت جفت‌های پرسش و پاسخ فرار می‌کند: موفقیت در آن مستلزم درک روابط پایگاه لینک است، نه فقط مطابقت دادن یک سوال با بخشی از متن. پایه‌گذاری ساخت نمونه‌ها بر اساس تخلفات DQC، آن را تکرارپذیر و مستقیماً با فرآیند حسابرسی واقعی مرتبط می‌کند.

با این حال، من تردیدهایی دارم. نتایج FinRE گیج‌کننده است: رسیدن GPT-4o به ۹۱.۸۲٪ در حالی که مدل‌های توانمند در دامنه به ۰.۰۰٪ سقوط می‌کنند، واریانسی است که تقریباً به یقین منعکس‌کننده حساسیت به پرامپت و عدم تطابق فرمت خروجی است تا توانایی استدلال واقعی. مقاله تمام مدل‌ها را در حالت صفر-نمونه بدون تغییر در فرمت پرامپت یا ارائه خط‌کش‌های چند-نمونه (few-shot) آزمایش می‌کند، که نسبت دادن نمرات ۰.۰۰٪ به هوش را به جای شکست در پارس کردن خروجی غیرممکن می‌سازد. چارچوب "LLM-به‌عنوان-داور" که برای FinMR استفاده شده نیز لایه دیگری از نویز ارزیابی را وارد می‌کند.

ادعای اصلی مبنی بر "کاهش دقت ۶۰ تا ۹۰ درصدی در ساختارهای چند-سندی سلسله‌مراتبی" نیز به یک نقطه اتکای روشن‌تر نیاز دارد. مشخص نیست که آیا این در مقایسه با عملکرد انسانی است، نسخه‌های تک‌سندی از همان وظایف، یا نسخه‌های مسطح (غیر سلسله‌مراتبی). جهت درست است، اما بدون آن خط پایه، تفسیر بزرگی این عدد دشوار است.

چرا این برای هوش مصنوعی مالی اهمیت دارد

فایل‌های Beancount از نوع XBRL نیستند، اما ویژگی‌های ساختاری کلیدی مشابهی دارند: یک فضای نام حساب سلسله‌مراتبی مشابه طرحواره طبقه‌بندی، محدودیت‌های دفترداری دوطرفه که باید مشابه پایگاه‌های لینک محاسباتی تراز شوند، و ورودی‌های تایپ شده که به دسته‌های متعارف ارجاع می‌دهند مشابه تطبیق مفهوم به نمونه. حالت شکست FinMR—مدل‌هایی که در قوانین محاسباتی چندمرحله‌ای اشتباهات محاسباتی مرتکب می‌شوند—دقیقاً همان چیزی است که برای تأیید تراز Beancount اهمیت دارد. اگر GPT-4o نمی‌تواند به طور قابل اعتماد تأیید کند که درخت‌های جمع US-GAAP در یک گزارش XBRL به درستی جمع زده شده‌اند، تقریباً قطعاً نمی‌توان برای تأیید سلسله‌مراتب پیچیده حساب‌ها در یک دفتر کل بدون برون‌سپاری محاسبات به یک ابزار خارجی (سبک PAL)، به آن اعتماد کرد.

اعداد FinSM یک هشدار مستقیم برای هر عامل Beancount است که نام حساب‌های تایپ شده توسط کاربر یا توضیحات تراکنش را به یک سرفصل حساب‌های متعارف نگاشت می‌کند. حتی بهترین مدل، مفهوم صحیح را در رتبه ۲۰، کمتر از ۱۳٪ مواقع بازیابی می‌کند. بازیابی مبتنی بر رتبه‌بندی بدون یک بازیاب تخصصی یا تنظیم دقیق روی طبقه‌بندی هدف، به هیچ وجه برای محیط عملیاتی آماده نیست.

نتیجه نگرفتن مدل‌های تخصصی دامنه آموزنده است: مقیاس خام و پرامپت‌نویسی ساختاریافته هنوز هم نتایج را بیش از پیش‌آموزش‌های مالی برای این کلاس از وظایف استدلال ساختاریافته تعیین می‌کنند.

چه چیزی را بعداً بخوانیم

  • From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130) — ساختار سلسله‌مراتبی پایگاه لینک XBRL دقیقاً همان نوع گراف روی اسناد است که GraphRAG مایکروسافت هدف قرار می‌دهد؛ به عنوان یک پاسخ معماری به شکست‌های بازیابی FinAuditing ارزش خواندن دارد.
  • FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650) — از نویسندگان مشترک، بر نگاشت واقعیت‌های مالی به مفاهیم طبقه‌بندی تمرکز دارد (وظیفه بالادستی قبل از حسابرسی)؛ مکمل حوزه کاری FinAuditing است.
  • Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012) — اگر مدل‌ها نمی‌توانند محاسبات را به طور قابل اعتماد در حالت صفر-نمونه تأیید کنند، پاسخ ممکن است در ابزارهای تأیید رسمی لایه‌بندی شده روی اقدامات عامل باشد تا پرامپت‌نویسی بهتر.