TAT-QA: معیار ارزیابی پرسش و پاسخ ترکیبی جدول-متن برای استدلال در گزارشهای سالانه مالی
امروز در حال مطالعه TAT-QA هستم، زیرا دقیقاً در نقطهی تلاقی موضوعاتی قرار دارد که برای آنچه ما در حال ساختنش هستیم اهمیت دارد: سوالاتی که فقط با استدلال همزمان روی یک جدول و متنهای پیرامون آن قابل پاسخگویی هستند. در Beancount، هر ثبت دفتر کل در یک بافتار (context) وجود دارد — یک ردیف جدول که بدون «شرح» (memo)، روایت طرف مقابل، یا سیاستهای حسابداری که چرایی وجود آن ردیف را توضیح میدهند، معنایی ندارد. TAT-QA که در ACL 2021 توسط ژو و همکاران از آزمایشگاه ++NExT در دانشگاه ملی سنگاپور منتشر شد، معیاری است که جامعه پردازش زبان طبیعی (NLP) را مجبور کرد تا مستقیماً با این مسئله روبرو شود.
مقاله
فنگبین ژو، ونچیانگ لی، یوچنگ هوانگ، چائو وانگ، شو ژانگ، جیانچنگ لو، فولی فنگ و تات-سنگ چوا، مجموعهداده TAT-QA (پرسش و پاسخ جدولی و متنی) را معرفی میکنند؛ مجموعهای شامل ۱۶,۵۵۲ سوال بر روی ۲,۷۵۷ بافتار ترکیبی که از گزارشهای سالانه مالی واقعی استخراج شدهاند. هر بافتار، یک جدول نیمهساختاریافته را با حداقل دو پاراگراف همراه جفت میکند — دقیقاً همان ساختاری که در گزارشهای ۱۰-K میبینید، جایی که جدول درآمد در کنار بحث مدیریت درباره عوامل محرک آن اعداد قرار میگیرد. تقریباً تمام سوالات به محاسبات ریاضی نیاز دارند: جمع، تفریق، ضرب، تقسیم، شمارش، مقایسه، مرتبسازی و ترکیبهای چندعملیاتی.
مشارکت اصلی این مقاله دو جنبه دارد: خود معیار ارزیابی، و TAGOP، مدل جدیدی که این وظیفه را به صورت برچسبگذاری شواهد و به دنبال آن استدلال نمادین (symbolic reasoning) انجام میدهد. TAGOP از یک برچسبگذار توالی روی سلولهای جدول و بخشهای متنی متصلبههم استفاده میکند تا قطعات شواهد مورد نیاز را شناسایی کند، سپس مجموعهای ثابت ا ز عملگرهای تجمیع (جمع، اختلاف، حاصلضرب، نسبت، شمارش و غیره) را برای محاسبه پاسخ نهایی اعمال میکند. در اینجا خبری از محاسبات عصبی (neural arithmetic) نیست — خودِ محاسبه همیشه به یک اجراکننده نمادین واگذار میشود.
ایدههای کلیدی
- شناسایی شواهد بخش دشوار است، نه محاسبات ریاضی. تحلیل خطای TAGOP حدود ۵۵٪ از شکستها را به برچسبگذاری نادرست و ۲۹٪ را به شواهد مفقود شده نسبت میدهد. وقتی سلولها و بخشهای متنی درست را در اختیار داشته باشید، اجراکننده نمادین به ندرت دچار خطای محاسباتی میشود. این یک سیگنال مستقیم است: برای دستیاران هوش مصنوعی مالی، مرحله بازیابی و مستندسازی شواهد (grounding) بخش غالب است.
- مدلهای صرفاً متنی بلافاصله شکست میخورند. BERT-RC در مجموعه تست فقط به دقت F1 ۱۸.۷٪ میرسد. NumNet+ V2، بهترین خواننده عددی پیش از TAT-QA، به دقت F1 ۴۶.۹٪ دست مییابد. مدل پایهی TaPas که فقط جدولخوان است، دقت F1 ۲۲.۸٪ را کسب میکند. مدلی که جداول را بدون متن — یا متن را بدون جداول — بخواند، در این حوزه رد صلاحیت میشود.
- TAGOP امتیاز F1 ۵۸.۰٪ (۵۰.۱٪ انطباق دقیق) را کسب میکند، در حالی که کارشناسان انسانی امتیاز F1 ۹۰.۸٪ (۸۴.۱٪ EM) را به دست میآورند. شکاف ۳۲.۸ واحدی در F1 در زمان انتشار مقاله نگرانکننده بود. این بدان معنا بود که حتی بهترین سیستم سال ۲۰۲۱ به کمتر از دو سوم سوالاتی که یک تحلیلگر آموزشدیده پاسخ میدهد، پاسخ صحیح میدهد.
- تا اواخر سال ۲۰۲۴، جدول ردهبندی داستان دیگری را روایت میکند. برترین سیستم، TAT-LLM (نسخه ۷۰ میلیاردی)، به دقت F1 ۸۸.۴٪ میرسد — یعنی تنها ۲.۴ واحد پایینتر از انسان. TAT-LLM (نسخه ۷ میلیاردی) به دقت F1 ۸۲.۸۸٪ و GPT-4 در حالت zero-shot به F1 ۷۹.۷۱٪ دست مییابد. این شکاف عمدتاً از طریق تنظیم دقیق (fine-tuning) در مقیاس مدلهای زبانی بزرگ (LLM) به طرز چشمگیری بسته شده است.
- تنظیم دقیق تخصصی همچنان از GPT-4 خام بهتر عمل میکند. TAT-LLM 7B با ۷۴.۵۶٪ انطباق دقیق، از GPT-4 zero-shot با ۷۱.۹۲٪ در TAT-QA پیشی میگیرد، حتی با وجود اینکه تعداد پارامترهای بسیار کمتری دارد. خطلوله گامبهگام «استخراجکننده ← استدلالکننده ← اجراکننده» که TAT-LLM استفاده میکند، بازتابدهنده شهود TAGOP است، اما برچسبگذار نمادین را با یک LLMِ مهندسیشده با پرامپت جایگزین کرده است.
چه چیزی پابرجا میماند — و چه چیزی نه
اعتبار اصلی این معیار ارزیابی در واقعی بودن دادهها، سوالات و گزارشهای مالی است. شکاف ۳۲ واحدی بین انسان و مدل در زمان انتشار کاملاً واقعی بود و مجموعهداده به قدری سخت است که حتی پنج سال بعد، برترین سیستمها هنوز آن را کاملاً حل نکردهاند.
آنچه مرا نگران میکند، فرضِ «تک جدولی» بودن است. هر بافتار در TAT-QA دقیقاً شامل یک جدول است. گزارشهای سالانه واقعی شامل دهها جدول هستند که اغلب دارای روابط سلسلهمراتبی در میان بخشها، شرکتهای تابعه و دورههای زمانی مختلف میباشند. مدلی که بتواند به سوالات TAT-QA به طور کامل پاسخ دهد، هنوز برای تجمیع اطلاعات میانجدولی که بخش عمدهای از کار حسابداری واقعی است، آماده نیست. مقاله MMQA (ICLR 2025) دقیقاً به همین نکته اشاره میکند — اینکه معیارهای تکجدولی مانند TAT-QA، پیچیدگیهای چندجدولی که متخصصان با آن روبرو هستند را دستکم میگیرند.
توزیع نوع پاسخها نیز در عمل به آن سختی که به نظر میرسد نیست. حدود ۴۲٪ از پاسخهای TAT-QA تکبخشی هستند — یعنی استخراج مستقیم که نیازی به محاسبه ندارد. ترکیبهای چندعملیاتیِ چالشبرانگیز در اقلیت هستند. مدلی که تمام استخراجها را درست و تمام محاسبات ریاضی را غلط انجام دهد، همچنان امتیازی در محدوده ۳۰ تا ۴۰ درصد کسب میکند. این معیار ارزیابی بر اساس دشواری وزندهی نمیشود، که باعث میشود سیگنال حاصل از موارد استدلال واقعاً دشوار کمرنگ شود.
در نهایت، معیار انسانی (۹۰.۸٪ F1) با استفاده از ارزیابانی محاسبه شده که به اسناد دسترسی داشتند اما لزوماً کارشناسانی در سطح حسابدار رسمی (CPA) نبودند. برای استدلال در سطح دفتر کل Beancount — جایی که دستیار هوش مصنوعی باید سیاستهای حسابداری را بفهمد و نه فقط محاسبات ریاضی را — ممکن است ۹۰.۸٪ تخمین بیشازحدی از سقف «درست» باشد.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
TAT-QA نزدیکترین معیار ارزیابی عمومی به چیزی است که یک عامل Beancount روزانه با آن روبرو میشود: دادههای ورودی ساختاریافته (جدول) که در کنار روایت غیرساختاریافته (شرح، توضیحات، یادداشتهای سیاستگذاری) قرار دارند. نتیجه TAGOP آنچه را که من از ساخت ابزارهای دفتر کل انتظار داشتم تأیید میکند — مستندسازی (grounding) سختتر از محاسبه است. مشکل اصلی، برچسبگذاری صحیح سلولهاست؛ جمع زدن آنها کار سادهای است.
مسیر جدول ردهبندی برای محصول امیدوارکننده است: یک مدل با ۷ میلیارد پارامتر که در این حوزه تنظیم دقیق شده، از GPT-4 zero-shot بهتر عمل میکند. این نشان میدهد که یک مدل تنظیمشدهی اختصاصی برای Beancount میتواند بار کاری بازیابی + محاسبات ریاضی را بدون نیاز به فراخوانی API مدلهای پیشرو برای هر پرسوجوی دفتر کل، مدیریت کند. با اجرای محلی یک مدل متخصص و فشرده، تاخیر، هزینه و حریم خصوصی دادهها همگی بهبود مییابند.
محدودیت تکجدولی، شکاف مستقیمی است که باید در Bean Labs پر شود. دفاتر کل Beancount در عمل اسناد چندجدولی هستند — ثبتهای حساب، ردیفهای بودجه، یادداشتهای مغایرتگیری — و معیار ارزیابی که این ساختار چندگامی را در جداول مرتبط ثبت کند، هنوز به طور کامل وجود ندارد. مقاله MultiHiertt (ACL 2022) نزدیکترین مورد به این موضوع است و مقاله بعدی در لیست مطالعه من خواهد بود.
چه چیزی را در ادامه بخوانیم
- MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — مستقیماً به محدودیت تکجدولی TAT-QA میپردازد؛ سوالات نیازمند استدلال در چندین جدول سلسلهمراتبی در یک سند مالی واحد هستند، که به شکل صورتهای مالی تلفیقی دفتر کل نزدیکتر است.
- ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — FinQA را به گفتگوهای چندنوبتی گسترش میدهد؛ مدلها باید بافتار عددی جاری را در طول نوبتهای سوال دنبال کنند، که با نحوه مدیریت پرسوجوهای تکمیلی توسط یک عامل Beancount در یک نشست کاری مطابقت دارد.
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — دنباله مستقیم از همان گروه ++NExT؛ نشان میدهد که چگونه LLaMA-2 تنظیمشده با خطلوله استخراجکننده ← استدلالکننده ← اجراکننده، از GPT-4 zero-shot در TAT-QA و FinQA پیشی میگیرد.
