FinAuditing: نمرات زیر ۱۴٪ مدلهای زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL
FinAuditing مدلهای زبانی بزرگ (LLM) را در برابر پیچیدگیهای ساختاریافته گزارشهای واقعی SEC XBRL محک میزند—نه جفتهای پرسش و پاسخ صیقلخوردهای که در جداول امتیازی NLP مالی غالب هستند. من اکنون در حال مطالعه آن هستم زیرا دستور کار حسابرسی Bean Labs مدام به سوالی بازمیگردد که محکهای موجود نمیتوانند به آن پاسخ دهند: آیا یک مدل میتواند یک گزارش ساختاریافته کامل را در حافظه نگه دارد و سازگاری داخلی آن را تأیید کند؟
مقاله
وانگ و همکاران FinAuditing را معرفی میکنند، محکی شامل ۱,۱۰۲ نمونه برگرفته از ۲۱۸ گزارش XBRL در SEC EDGAR، که انواع خطاهای فهرست شده توسط کمیته کیفیت داده XBRL آمریکا (DQC) را پوشش میدهد. XBRL فرمت ماشینخوانی است که SEC برای تمام گزارشهای شرکتهای عمومی الزامی کرده است؛ هر گزارش شامل یک سند نمونه (اعداد گزارش شده)، یک طرحواره طبقهبندی (مفاهیم حسابداری معتبر) و چهار پایگاه لینک—محاسبه، ارائه، تعریف و برچسب—است که نحوه ارتباط مفاهیم با یکدیگر را مشخص میکند. این بنچمارک سه زیروظیفه حسابرسی را عملیاتی میکند: تطابق معنایی مالی (FinSM، بازیابی مفهوم صحیح طبقهبندی برای یک واقعیت گزارش شده)، استخراج رابطه مالی (FinRE، طبقهبندی رابطه بین دو گره طبقهبندی)، و استدلال ریاضی مالی (FinMR، تأیید اینکه ارقام گزارش شده قوانین محاسباتی تعریف شده در طبقهبندی را رعایت میکنند). نمونهها به طور متوسط ۳۳,۸۴۸ توکن دارند—که در حد یا فراتر از محدودیت محتوایی موثر بسیاری از مدلهای متنباز است—و تمام ۱۳ مدل در حالت صفر-نمونه (zero-shot) آزمایش شدهاند.
ایدههای کلیدی
- FinSM اساساً بازیابی طبقهبندی است: با داشتن یک واقعیت در گزارش، مفهوم درست US-GAAP را پیدا کنید. DeepSeek-V3 با نرخ ضربه ۱۲.۴۲٪ در Hit Rate@20 در صدر قرار دارد—کمتر از یک حدس درست از هر هشت حدس هنگام انتخاب از بین ۲۰ کاندیدا. GPT-4o موفق به کسب ۹.۰۹٪ میشود.
- FinRE (طبقهبندی روابط پایگاه لینک) آسانترین وظیفه است: GPT-4o به دقت ۹۱.۸۲٪ و نمره Macro F1 معادل ۹۰.۰۹ میرسد. اما Qwen3-32B و Fino1-14B—که هر دو به عنوان مدلهای توانمند در امور مالی بازاریابی شدهاند—نمره ۰.۰۰٪ کسب کردند که ظاهراً به دلیل شکست در نوع رابطه CombinationErr بوده است.
- FinMR بیرحمانه است: Fino1-14B با دقت ۱۳.۸۶٪ پیشتاز است؛ اکثر مدلها در درصدهای تکرقمی باقی ماندهاند. تحلیل خطا ۷۰ تا ۸۳ درصد شکستها را به اشتباهات محاسباتی در قوانین محاسباتی چندمرحلهای نسبت میدهد، در حالی که خطاهای قالببندی ساختاری ۹ تا ۷۱ درصد را بسته به مدل شامل میشود.
- دادههای منبع، ۴,۵۴۵ پیام خطای DQC از گزارشهای واقعی (۲۰۲۰–۲۰۲۴) هستند—نه مثالهای تقابلی مصنوعی. این بنچمارک ۹ نوع خطای پرتکرار را انتخاب کرده که ۶۰.۳۳٪ از تخلفات واقعی DQC را پوشش میدهد.
- مدلهای تخصصی دامنه (Fino1-14B, FinR1) به طور سیستماتیک مدلهای بزرگ عمومی را شکست نمیدهند؛ Fino1-14B تنها در FinMR پیشتاز است و حتی در آنجا نمره ۱۳.۸۶٪ آن به سختی بالاتر از نویز است.
چه چیزی پابرجا میماند—و چه چیزی نه
این بنچمارک دقیقاً به این دلیل ارزشمند است که از فرمت جفتهای پرسش و پاسخ فرار میکند: موفقیت در آن مستلزم درک روابط پایگاه لینک است، نه فقط مطابقت دادن یک سوال با بخشی از متن. پایهگذاری ساخت نمونهها بر اساس تخلفات DQC، آن را تکرارپذیر و مستقیماً با فرآیند حسابرسی واقعی مرتبط میکند.
با این حال، من تردیدهایی دارم. نتایج FinRE گیجکننده است: رسیدن GPT-4o به ۹۱.۸۲٪ در حالی که مدلهای توانمند در دامنه به ۰.۰۰٪ سقوط میکنند، واریانسی است که تقریباً به یقین منعکسکننده حساسیت به پرامپت و عدم تطابق فرمت خروجی است تا توانایی استدلال واقعی. مقاله تمام مدلها را در حالت صفر-نمونه بدون تغییر در فرمت پرامپت یا ارائه خطکشهای چند-نمونه (few-shot) آزمایش میکند، که نسبت دادن نمرات ۰.۰۰٪ به هوش را به جای شکست در پارس کردن خروجی غیرممکن میسازد. چارچوب "LLM-بهعنوان-داور" که برای FinMR استفاده شده نیز لایه دیگری از نویز ارزیابی را وارد میکند.
ادعای اصلی مبنی بر "کاهش دقت ۶۰ تا ۹۰ درصدی در ساختارهای چند-سندی سلسلهمراتبی" نیز به یک نقطه اتکای روشنتر نیاز دارد. مشخص نیست که آیا این در مقایسه با عملکرد انسانی است، نسخههای تکسندی از همان وظایف، یا نسخههای مسطح (غیر سلسلهمراتبی). جهت درست است، اما بدون آن خط پایه، تفسیر بزرگی این عدد دشوار است.
چرا این برای هوش مصنوعی مالی اهمیت دارد
فایلهای Beancount از نوع XBRL نیستند، اما ویژگیهای ساختاری کلیدی مشابهی دارند: یک فضای نام حساب سلسلهمراتبی مشابه طرحواره طبقهبندی، محدودیتهای دفترداری دوطرفه که باید مشابه پایگاههای لینک محاسباتی تراز شوند، و ورودیهای تایپ شده که به دستههای متعارف ارجاع میدهند مشابه تطبیق مفهوم به نمونه. حالت شکست FinMR—مدلهایی که در قوانین محاسباتی چندمرحلهای اشتباهات محاسباتی مرتکب میشوند—دقیقاً همان چیزی است که برای تأیید تراز Beancount اهمیت دارد. اگر GPT-4o نمیتواند به طور قابل اعتماد تأیید کند که درختهای جمع US-GAAP در یک گزارش XBRL به درستی جمع زده شدهاند، تقریباً قطعاً نمیتوان برای تأیید سلسلهمراتب پیچیده حسابها در یک دفتر کل بدون برونسپاری محاسبات به یک ابزار خارجی (سبک PAL)، به آن اعتماد کرد.
اعداد FinSM یک هشدار مستقیم برای هر عامل Beancount است که نام حسابهای تایپ شده توسط کاربر یا توضیحات تراکنش را به یک سرفصل حسابهای متعارف نگاشت میکند. حتی بهترین مدل، مفهوم صحیح را در رتبه ۲۰، کمتر از ۱۳٪ مواقع بازیابی میکند. بازیابی مبتنی بر رتبهبندی بدون یک بازیاب تخصصی یا تنظیم دقیق روی طبقهبندی هدف، به هیچ وجه برای محیط عملیاتی آماده نیست.
نتیجه نگرفتن مدلهای تخصصی دامنه آموزنده است: مقیاس خام و پرامپتنویسی ساختاریافته هنوز هم نتایج را بیش از پیشآموزشهای مالی برای این کلاس از وظایف استدلال ساختاریافته تعیین میکنند.
چه چیزی را بعداً بخوانیم
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130) — ساختار سلسلهمراتبی پایگاه لینک XBRL دقیقاً همان نوع گراف روی اسناد است که GraphRAG مایکروسافت هدف قرار میدهد؛ به عنوان یک پاسخ معماری به شکستهای بازیابی FinAuditing ارزش خواندن دارد.
- FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650) — از نویسندگان مشترک، بر نگاشت واقعیتهای مالی به مفاهیم طبقهبندی تمرکز دارد (وظیفه بالادستی قبل از حسابرسی)؛ مکمل حوزه کاری FinAuditing است.
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012) — اگر مدلها نمیتوانند محاسبات را به طور قابل اعتماد در حالت صفر-نمونه تأیید کنند، پاسخ ممکن است در ابزارهای تأیید رسمی لایهبندی شده روی اقدامات عامل باشد تا پرامپتنویسی بهتر.
