MultiHiertt: بنچمارک استدلال عددی بر روی جداول مالی چندسلسلهمراتبی
هر بنچمارک پرسش و پاسخ مالی که این ماه مطالعه کردهام — FinQA، TAT-QA، ConvFinQA — بر پایه یک پیشفرض نانوشته بنا شده است: یک جدول تخت (flat) در هر سند. گزارشهای مالی واقعی به هیچ وجه شبیه به آن نیستند. ترازنامههای تلفیقی، شرکتهای تابعه را درون بخشها و بخشها را درون نهادهای مادر جای میدهند؛ صورتهای سود و زیان شامل اقلام سلسلهمراتبی با زیرجمعهایی هستند که خود خوراک مجموعهای بالاتر میشوند. MultiHiertt (Zhao et al., ACL 2022) اولین بنچمارکی است که دقیقاً برای آشکار کردن این شکاف ساخته شده است و اعدادی که از آن حاصل میشود تاملبرانگیز است.
مقاله
ییلون ژائو، یونشیانگ لی، چنیینگ لی و روی ژانگ در دانشگاه پن استیت، MultiHiertt را معرفی میکنند؛ یک بنچمارک پرسش و پاسخ شامل ۱۰,۴۴۰ جفت پرسش و پاسخ استخراج شده از ۲,۵۱۳ گزارش مالی واقعی. هر سند به طور میانگین شامل ۳.۸۹ جدول سلسلهمراتبی در کنار ۶۸ جمله (حدود ۱,۶۴۵ کلمه) متن روایی است. تقسیمبندی آموزش/توسعه/آزمایش به صورت ۷,۸۳۰ / ۱,۰۴۴ / ۱,۵۶۶ است. استدلال اصلی ساده اما دقیق است: مجموعهدادههای قبلی (FinQA، TAT-QA) مدلها را بر روی اسنادی با یک جدول تخت ارزیابی میکنند که به طور سیستماتیک پیچیدگی استدلال روی پروندههای مالی واقعی را کمتر از حد واقعی نشان میدهد؛ جایی که یک پرسش ممکن است نیازمند ترکیب اعداد از سه جدول فرعی مجزا قبل از اعمال یک برنامه محاسباتی باشد.
همراه با این مجموعه داده، نویسندگان MT2Net را پیشنهاد میکنند، یک مدل دو مرحلهای: یک ماژول بازیابی حقایق که به سلولهای پشتیبان کاندید و بخشهای متنی از تمام جداول و پاراگرافها امتیاز میدهد، و پس از آن یک ماژول استدلال نمادین (یک اجراکننده برنامه محاسباتی برگرفته از طراحی NeRd در FinQA) که روی حقایق بازیابی شده عمل میکند. MT2Net در تمامی مراحل از RoBERTa-large به عنوان رمزگذار (encoder) استفاده میکند.
ایدههای کلیدی
- میانگین ۳.۸۹ جدول در هر سند در MultiHiertt مستقیماً ساختار گزارشهای سالانه واقعی را منعکس میکند، جایی که یک پرسش واحد میتواند نیازمند مقادیری از صورت سود و زیان، جدول تفکیک بخشها و جدول یادداشتهای توضیحی باشد — که هیچکدام تخت نیستند.
- مدل MT2Net (مبتنی بر RoBERTa-large) به امتیاز F1 ۳۸.۴۳٪ در مجموعه آزمایش دست مییابد؛ در حالی که متخصصان انسانی امتیاز ۸۷.۰۳٪ را کسب میکنند — شکافی نزدیک به ۴۹ امتیاز.
- پرسشهای استدلال چندجدولی (که نیازمند شواهدی از ۲ یا چند جدول هستند) در بهترین مدل امتیاز ۲۱.۰۴٪ را کسب کردند، در مقایسه با ۳۶.۷۷٪ برای پرسشهای تکجدولی — افت بیش از ۱۵ امتیازی از یک خط پایه که خود پایین است.
- ماژول استدلال نمادین کمک میکند اما نمیتواند شکستهای بازیابی را جبران کند: مطالعه حاشیهنویسی نشان میدهد که ۳۱.۵٪ از خطاها در نمونههای سلسلهمراتبی ناشی از انتخاب سلولهای شواهد اشتباه، قبل از هرگونه تلاش برای محاسبه است.
- تا سال ۲۰۲۴، GPT-4 با پرامپتنویسی «برنامه افکار» (Program-of-Thoughts) به امتیاز F1 ۶۷.۲۳٪ در MultiHiertt میرسد و یک روش اختصاصی EEDP (پرامپتنویسی سند با شواهد تقویتشده) GPT-4 را به ۷۰.۳۲٪ میرساند — که هنوز ۱۷ امتیاز پایینتر از سقف انسانی است.
- کیفیت حاشیهنویسی قوی است: ضریب کاپای بین حاشیهنویسان ۰.۷۲ تا ۰.۹۰ است و ۷۶.۸٪ تا ۹۴.۰٪ از نمونهها توسط کارگران جمعی امتیاز ۴ از ۵ یا بالاتر برای صحت دریافت کردهاند.
چه چیزی پابرجا میماند و چه چیزی نه
ساختار مجموعه داده دقیق است و معیارهای کیفیت حاشیهنویسی اطمینانبخش هستند. ادعای اصلی — که بنچمارکهای تکجدولی پیچیدگی واقعی را کمتر از حد نشان میدهند — بدیهی است و شکاف ۱۵ امتیازی F1 بین زیرمجموعههای تک و چندجدولی آن را ملموس میکند. جدول مقایسهای (جدول ۱ در مقاله) به وضوح نشان میدهد که FinQA و TAT-QA یک جدول در هر سند دارند؛ MultiHiertt واقعاً یک شکاف واقعی را پر میکند.
با این حال، MT2Net یک راهکار پیشنهادی قوی نیست — بیشتر به یک خط پایه (baseline) ق وی نزدیک است. ماژول بازیابی یک امتیازدهنده در سطح بخش (span-level) است که با نظارت بر حقایق پشتیبان آموزش دیده است، به این معنی که به شدت به داشتن سیگنال نظارتی صحیح در زمان آموزش وابسته است. مقاله ارزیابی نمیکند که وقتی ساختار سلسلهمراتبی ضمنی باشد (بدون تودرتویی صریح HTML)، که در پروندههای اسکن شده و PDFهای قدیمی رایج است، چه اتفاقی میافتد. مجموعه آزمایش پشت یک تابلوی امتیازات CodaLab نگه داشته شده است، که بازتولید مستقل نتایج یا بررسی حالتهای شکست را دشوار میکند.
همچنین میخواهم به چیزی اشاره کنم که نویسندگان کمتر بر آن تاکید کردهاند: نتایج GPT-4 در سال ۲۰۲۴ نشان میدهد که قدرت استدلال خام میتواند بخش بزرگی از شکاف را بدون هیچ معماری خاصی که برای سلسلهمراتب طراحی شده باشد، پر کند. GPT-4 بدون اینکه هرگز به آن گفته شود سند دارای جداول سلسلهمراتبی است، به ۷۰٪ میرسد — فقط HTML رندر شده را میخواند. این در واقع یافته جالبی است: آگاهی از سلسلهمراتب ممکن است کمتر از ظرفیت خالص بافتار (context) و قابلیت اطمینان محاسباتی اهمیت داشته باشد. محدودیت اصلی همچنان میتواند دقت بازیابی در اسناد طولانی باشد، نه معماری استدلال.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
عاملهای (Agents) Beancount دقیقاً با همین مشکل مواجه هستند. پرسشی مانند «نرخ مالیات مؤثر ما در سال ۲۰۲۳ چقدر بود؟» نیازمند یافتن ردیف درآمد قبل از مالیات از صورت سود و زیان، هزینه مالیات بر درآمد از یک یادداشت مجزا و احتمالاً تفکیک در سطح بخش برای تطبیق رقم تلفیقی است. هیچکدام از اینها در یک جدول تخت واحد قرار ندارند. جریمه ۱۵ امتیازی F1 برای استدلال چندجدولی در MultiHiertt چیزی را کمیسازی میکند که انتظار دارم در بافت Beancount ببینم: عاملهایی که در پرسوجوهای تکحسابی خوب به نظر میرسند، زمانی که پرسش نیازمند پیوند دادن بخشهای مختلف دفتر کل باشد، به شدت افت میکنند.
تحلیل خطا مستقیماً قابل اجرا است. اگر ۳۱.۵٪ از خطاها مربوط به بازیابی شواهد اشتباه قبل از انجام هرگونه محاسباتی باشد، اولویت برای یک عامل بازنویسی (write-back agent) در Beancount، داشتن یک موتور محاسباتی بهتر نیست — بلکه یک انتخابگر شواهد بهتر است. عاملی که قبل از انجام محاسبات، ردیفهای اشتباهی از دفتر کل را بازیابی میکند، ورودیهایی تولید خواهد کرد که ظاهر درستی دارند اما اشتباه هستند؛ دقیقاً همان حالت شکستی که شناسایی آن در حسابرسی از همه دشوارتر است.
مسیر GPT-4 نیز برای کوتاه مدت امیدوارکننده است: حرکت از ۳۸٪ به ۷۰٪ طی دو سال نشان میدهد که استدلال مالی چندجدولی با بهبود پنجرههای بافتار و استدلال، حتی بدون آموزش تخصصی در دامنه، قابل دستیابی است. اما شکاف ۱۷ امتیازی باقیمانده تا عملکرد انسانی نویز نیست — احتمالاً منعکسکننده مواردی است که در آنها ساختار سلسلهمراتبی بار معنایی دارد که رندر کردن متن به صورت تخت آن را از بین میبرد.
مطالعه بیشتر
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — بنیادی که تقریباً هر سیستم پرسش و پاسخ مالی بر آن بنا شده است؛ درک تفاوت حافظه پارامتریک در مقابل غیرپارامتریک برای تصمیمگیری در مورد نحوه ساختاردهی بازیابی دفتر کل اهمیت دارد.
- FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — زمانی که مدل پیشبینی میکند به حقایق جدیدی نیاز دارد، در میانه تولید محتوا بازیابی را انجام میدهد؛ که برازش طبیعی برای استدلال چندجدولی دارد، جایی که در میانه استدلال متوجه میشوید به یک جدول فرعی نیاز دارید.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — یک مدل زبانی بزرگ را به طور خاص روی FinQA/TAT-QA/MultiHiertt تنظیم دقیق میکند و نشان میدهد که انطباق دامنه واقعاً چه برتری نسبت به پرامپتنویسی GPT-4 ایجاد میکند.
