پرش به محتوای اصلی

MultiHiertt: بنچ‌مارک استدلال عددی بر روی جداول مالی چند‌سلسله‌مراتبی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

هر بنچ‌مارک پرسش و پاسخ مالی که این ماه مطالعه کرده‌ام — FinQA، TAT-QA، ConvFinQA — بر پایه یک پیش‌فرض نانوشته بنا شده است: یک جدول تخت (flat) در هر سند. گزارش‌های مالی واقعی به هیچ وجه شبیه به آن نیستند. ترازنامه‌های تلفیقی، شرکت‌های تابعه را درون بخش‌ها و بخش‌ها را درون نهادهای مادر جای می‌دهند؛ صورت‌های سود و زیان شامل اقلام سلسله‌مراتبی با زیرجمع‌هایی هستند که خود خوراک مجموع‌های بالاتر می‌شوند. MultiHiertt (Zhao et al., ACL 2022) اولین بنچ‌مارکی است که دقیقاً برای آشکار کردن این شکاف ساخته شده است و اعدادی که از آن حاصل می‌شود تامل‌برانگیز است.

مقاله

2026-05-16-multihiertt-numerical-reasoning-multi-hierarchical-tabular-textual

ییلون ژائو، یونشیانگ لی، چنیینگ لی و روی ژانگ در دانشگاه پن استیت، MultiHiertt را معرفی می‌کنند؛ یک بنچ‌مارک پرسش و پاسخ شامل ۱۰,۴۴۰ جفت پرسش و پاسخ استخراج شده از ۲,۵۱۳ گزارش مالی واقعی. هر سند به طور میانگین شامل ۳.۸۹ جدول سلسله‌مراتبی در کنار ۶۸ جمله (حدود ۱,۶۴۵ کلمه) متن روایی است. تقسیم‌بندی آموزش/توسعه/آزمایش به صورت ۷,۸۳۰ / ۱,۰۴۴ / ۱,۵۶۶ است. استدلال اصلی ساده اما دقیق است: مجموعه‌داده‌های قبلی (FinQA، TAT-QA) مدل‌ها را بر روی اسنادی با یک جدول تخت ارزیابی می‌کنند که به طور سیستماتیک پیچیدگی استدلال روی پرونده‌های مالی واقعی را کمتر از حد واقعی نشان می‌دهد؛ جایی که یک پرسش ممکن است نیازمند ترکیب اعداد از سه جدول فرعی مجزا قبل از اعمال یک برنامه محاسباتی باشد.

همراه با این مجموعه داده، نویسندگان MT2Net را پیشنهاد می‌کنند، یک مدل دو مرحله‌ای: یک ماژول بازیابی حقایق که به سلول‌های پشتیبان کاندید و بخش‌های متنی از تمام جداول و پاراگراف‌ها امتیاز می‌دهد، و پس از آن یک ماژول استدلال نمادین (یک اجراکننده برنامه محاسباتی برگرفته از طراحی NeRd در FinQA) که روی حقایق بازیابی شده عمل می‌کند. MT2Net در تمامی مراحل از RoBERTa-large به عنوان رمزگذار (encoder) استفاده می‌کند.

ایده‌های کلیدی

  • میانگین ۳.۸۹ جدول در هر سند در MultiHiertt مستقیماً ساختار گزارش‌های سالانه واقعی را منعکس می‌کند، جایی که یک پرسش واحد می‌تواند نیازمند مقادیری از صورت سود و زیان، جدول تفکیک بخش‌ها و جدول یادداشت‌های توضیحی باشد — که هیچ‌کدام تخت نیستند.
  • مدل MT2Net (مبتنی بر RoBERTa-large) به امتیاز F1 ۳۸.۴۳٪ در مجموعه آزمایش دست می‌یابد؛ در حالی که متخصصان انسانی امتیاز ۸۷.۰۳٪ را کسب می‌کنند — شکافی نزدیک به ۴۹ امتیاز.
  • پرسش‌های استدلال چند‌جدولی (که نیازمند شواهدی از ۲ یا چند جدول هستند) در بهترین مدل امتیاز ۲۱.۰۴٪ را کسب کردند، در مقایسه با ۳۶.۷۷٪ برای پرسش‌های تک‌جدولی — افت بیش از ۱۵ امتیازی از یک خط پایه که خود پایین است.
  • ماژول استدلال نمادین کمک می‌کند اما نمی‌تواند شکست‌های بازیابی را جبران کند: مطالعه حاشیه‌نویسی نشان می‌دهد که ۳۱.۵٪ از خطاها در نمونه‌های سلسله‌مراتبی ناشی از انتخاب سلول‌های شواهد اشتباه، قبل از هرگونه تلاش برای محاسبه است.
  • تا سال ۲۰۲۴، GPT-4 با پرامپت‌نویسی «برنامه افکار» (Program-of-Thoughts) به امتیاز F1 ۶۷.۲۳٪ در MultiHiertt می‌رسد و یک روش اختصاصی EEDP (پرامپت‌نویسی سند با شواهد تقویت‌شده) GPT-4 را به ۷۰.۳۲٪ می‌رساند — که هنوز ۱۷ امتیاز پایین‌تر از سقف انسانی است.
  • کیفیت حاشیه‌نویسی قوی است: ضریب کاپای بین حاشیه‌نویسان ۰.۷۲ تا ۰.۹۰ است و ۷۶.۸٪ تا ۹۴.۰٪ از نمونه‌ها توسط کارگران جمعی امتیاز ۴ از ۵ یا بالاتر برای صحت دریافت کرده‌اند.

چه چیزی پابرجا می‌ماند و چه چیزی نه

ساختار مجموعه داده دقیق است و معیارهای کیفیت حاشیه‌نویسی اطمینان‌بخش هستند. ادعای اصلی — که بنچ‌مارک‌های تک‌جدولی پیچیدگی واقعی را کمتر از حد نشان می‌دهند — بدیهی است و شکاف ۱۵ امتیازی F1 بین زیرمجموعه‌های تک و چند‌جدولی آن را ملموس می‌کند. جدول مقایسه‌ای (جدول ۱ در مقاله) به وضوح نشان می‌دهد که FinQA و TAT-QA یک جدول در هر سند دارند؛ MultiHiertt واقعاً یک شکاف واقعی را پر می‌کند.

با این حال، MT2Net یک راهکار پیشنهادی قوی نیست — بیشتر به یک خط پایه (baseline) قوی نزدیک است. ماژول بازیابی یک امتیازدهنده در سطح بخش (span-level) است که با نظارت بر حقایق پشتیبان آموزش دیده است، به این معنی که به شدت به داشتن سیگنال نظارتی صحیح در زمان آموزش وابسته است. مقاله ارزیابی نمی‌کند که وقتی ساختار سلسله‌مراتبی ضمنی باشد (بدون تودرتویی صریح HTML)، که در پرونده‌های اسکن شده و PDFهای قدیمی رایج است، چه اتفاقی می‌افتد. مجموعه آزمایش پشت یک تابلوی امتیازات CodaLab نگه داشته شده است، که بازتولید مستقل نتایج یا بررسی حالت‌های شکست را دشوار می‌کند.

همچنین می‌خواهم به چیزی اشاره کنم که نویسندگان کمتر بر آن تاکید کرده‌اند: نتایج GPT-4 در سال ۲۰۲۴ نشان می‌دهد که قدرت استدلال خام می‌تواند بخش بزرگی از شکاف را بدون هیچ معماری خاصی که برای سلسله‌مراتب طراحی شده باشد، پر کند. GPT-4 بدون اینکه هرگز به آن گفته شود سند دارای جداول سلسله‌مراتبی است، به ۷۰٪ می‌رسد — فقط HTML رندر شده را می‌خواند. این در واقع یافته جالبی است: آگاهی از سلسله‌مراتب ممکن است کمتر از ظرفیت خالص بافتار (context) و قابلیت اطمینان محاسباتی اهمیت داشته باشد. محدودیت اصلی همچنان می‌تواند دقت بازیابی در اسناد طولانی باشد، نه معماری استدلال.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

عامل‌های (Agents) Beancount دقیقاً با همین مشکل مواجه هستند. پرسشی مانند «نرخ مالیات مؤثر ما در سال ۲۰۲۳ چقدر بود؟» نیازمند یافتن ردیف درآمد قبل از مالیات از صورت سود و زیان، هزینه مالیات بر درآمد از یک یادداشت مجزا و احتمالاً تفکیک در سطح بخش برای تطبیق رقم تلفیقی است. هیچ‌کدام از این‌ها در یک جدول تخت واحد قرار ندارند. جریمه ۱۵ امتیازی F1 برای استدلال چند‌جدولی در MultiHiertt چیزی را کمی‌سازی می‌کند که انتظار دارم در بافت Beancount ببینم: عامل‌هایی که در پرس‌وجوهای تک‌حسابی خوب به نظر می‌رسند، زمانی که پرسش نیازمند پیوند دادن بخش‌های مختلف دفتر کل باشد، به شدت افت می‌کنند.

تحلیل خطا مستقیماً قابل اجرا است. اگر ۳۱.۵٪ از خطاها مربوط به بازیابی شواهد اشتباه قبل از انجام هرگونه محاسباتی باشد، اولویت برای یک عامل بازنویسی (write-back agent) در Beancount، داشتن یک موتور محاسباتی بهتر نیست — بلکه یک انتخاب‌گر شواهد بهتر است. عاملی که قبل از انجام محاسبات، ردیف‌های اشتباهی از دفتر کل را بازیابی می‌کند، ورودی‌هایی تولید خواهد کرد که ظاهر درستی دارند اما اشتباه هستند؛ دقیقاً همان حالت شکستی که شناسایی آن در حسابرسی از همه دشوارتر است.

مسیر GPT-4 نیز برای کوتاه مدت امیدوارکننده است: حرکت از ۳۸٪ به ۷۰٪ طی دو سال نشان می‌دهد که استدلال مالی چند‌جدولی با بهبود پنجره‌های بافتار و استدلال، حتی بدون آموزش تخصصی در دامنه، قابل دستیابی است. اما شکاف ۱۷ امتیازی باقی‌مانده تا عملکرد انسانی نویز نیست — احتمالاً منعکس‌کننده مواردی است که در آن‌ها ساختار سلسله‌مراتبی بار معنایی دارد که رندر کردن متن به صورت تخت آن را از بین می‌برد.

مطالعه بیشتر

  • Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., NeurIPS 2020) — arXiv:2005.11401 — بنیادی که تقریباً هر سیستم پرسش و پاسخ مالی بر آن بنا شده است؛ درک تفاوت حافظه پارامتریک در مقابل غیرپارامتریک برای تصمیم‌گیری در مورد نحوه ساختاردهی بازیابی دفتر کل اهمیت دارد.
  • FLARE: Active Retrieval Augmented Generation (Jiang et al., EMNLP 2023) — arXiv:2305.06983 — زمانی که مدل پیش‌بینی می‌کند به حقایق جدیدی نیاز دارد، در میانه تولید محتوا بازیابی را انجام می‌دهد؛ که برازش طبیعی برای استدلال چند‌جدولی دارد، جایی که در میانه استدلال متوجه می‌شوید به یک جدول فرعی نیاز دارید.
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Financial Tabular and Textual Data (Zhao et al., ICAIF 2024) — یک مدل زبانی بزرگ را به طور خاص روی FinQA/TAT-QA/MultiHiertt تنظیم دقیق می‌کند و نشان می‌دهد که انطباق دامنه واقعاً چه برتری نسبت به پرامپت‌نویسی GPT-4 ایجاد می‌کند.