پرش به محتوای اصلی

TAT-QA: معیار ارزیابی پرسش و پاسخ ترکیبی جدول-متن برای استدلال در گزارش‌های سالانه مالی

· زمان مطالعه 8 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

امروز در حال مطالعه TAT-QA هستم، زیرا دقیقاً در نقطه‌ی تلاقی موضوعاتی قرار دارد که برای آنچه ما در حال ساختنش هستیم اهمیت دارد: سوالاتی که فقط با استدلال هم‌زمان روی یک جدول و متن‌های پیرامون آن قابل پاسخگویی هستند. در Beancount، هر ثبت دفتر کل در یک بافتار (context) وجود دارد — یک ردیف جدول که بدون «شرح» (memo)، روایت طرف مقابل، یا سیاست‌های حسابداری که چرایی وجود آن ردیف را توضیح می‌دهند، معنایی ندارد. TAT-QA که در ACL 2021 توسط ژو و همکاران از آزمایشگاه ++NExT در دانشگاه ملی سنگاپور منتشر شد، معیاری است که جامعه پردازش زبان طبیعی (NLP) را مجبور کرد تا مستقیماً با این مسئله روبرو شود.

مقاله

2026-05-14-tat-qa-hybrid-tabular-textual-financial-question-answering

فنگبین ژو، ونچیانگ لی، یوچنگ هوانگ، چائو وانگ، شو ژانگ، جیانچنگ لو، فولی فنگ و تات-سنگ چوا، مجموعه‌داده TAT-QA (پرسش و پاسخ جدولی و متنی) را معرفی می‌کنند؛ مجموعه‌ای شامل ۱۶,۵۵۲ سوال بر روی ۲,۷۵۷ بافتار ترکیبی که از گزارش‌های سالانه مالی واقعی استخراج شده‌اند. هر بافتار، یک جدول نیمه‌ساختاریافته را با حداقل دو پاراگراف همراه جفت می‌کند — دقیقاً همان ساختاری که در گزارش‌های ۱۰-K می‌بینید، جایی که جدول درآمد در کنار بحث مدیریت درباره عوامل محرک آن اعداد قرار می‌گیرد. تقریباً تمام سوالات به محاسبات ریاضی نیاز دارند: جمع، تفریق، ضرب، تقسیم، شمارش، مقایسه، مرتب‌سازی و ترکیب‌های چندعملیاتی.

مشارکت اصلی این مقاله دو جنبه دارد: خود معیار ارزیابی، و TAGOP، مدل جدیدی که این وظیفه را به صورت برچسب‌گذاری شواهد و به دنبال آن استدلال نمادین (symbolic reasoning) انجام می‌دهد. TAGOP از یک برچسب‌گذار توالی روی سلول‌های جدول و بخش‌های متنی متصل‌به‌هم استفاده می‌کند تا قطعات شواهد مورد نیاز را شناسایی کند، سپس مجموعه‌ای ثابت از عملگرهای تجمیع (جمع، اختلاف، حاصل‌ضرب، نسبت، شمارش و غیره) را برای محاسبه پاسخ نهایی اعمال می‌کند. در اینجا خبری از محاسبات عصبی (neural arithmetic) نیست — خودِ محاسبه همیشه به یک اجراکننده نمادین واگذار می‌شود.

ایده‌های کلیدی

  • شناسایی شواهد بخش دشوار است، نه محاسبات ریاضی. تحلیل خطای TAGOP حدود ۵۵٪ از شکست‌ها را به برچسب‌گذاری نادرست و ۲۹٪ را به شواهد مفقود شده نسبت می‌دهد. وقتی سلول‌ها و بخش‌های متنی درست را در اختیار داشته باشید، اجراکننده نمادین به ندرت دچار خطای محاسباتی می‌شود. این یک سیگنال مستقیم است: برای دستیاران هوش مصنوعی مالی، مرحله بازیابی و مستندسازی شواهد (grounding) بخش غالب است.
  • مدل‌های صرفاً متنی بلافاصله شکست می‌خورند. BERT-RC در مجموعه تست فقط به دقت F1 ۱۸.۷٪ می‌رسد. NumNet+ V2، بهترین خواننده عددی پیش از TAT-QA، به دقت F1 ۴۶.۹٪ دست می‌یابد. مدل پایه‌ی TaPas که فقط جدول‌خوان است، دقت F1 ۲۲.۸٪ را کسب می‌کند. مدلی که جداول را بدون متن — یا متن را بدون جداول — بخواند، در این حوزه رد صلاحیت می‌شود.
  • TAGOP امتیاز F1 ۵۸.۰٪ (۵۰.۱٪ انطباق دقیق) را کسب می‌کند، در حالی که کارشناسان انسانی امتیاز F1 ۹۰.۸٪ (۸۴.۱٪ EM) را به دست می‌آورند. شکاف ۳۲.۸ واحدی در F1 در زمان انتشار مقاله نگران‌کننده بود. این بدان معنا بود که حتی بهترین سیستم سال ۲۰۲۱ به کمتر از دو سوم سوالاتی که یک تحلیلگر آموزش‌دیده پاسخ می‌دهد، پاسخ صحیح می‌دهد.
  • تا اواخر سال ۲۰۲۴، جدول رده‌بندی داستان دیگری را روایت می‌کند. برترین سیستم، TAT-LLM (نسخه ۷۰ میلیاردی)، به دقت F1 ۸۸.۴٪ می‌رسد — یعنی تنها ۲.۴ واحد پایین‌تر از انسان. TAT-LLM (نسخه ۷ میلیاردی) به دقت F1 ۸۲.۸۸٪ و GPT-4 در حالت zero-shot به F1 ۷۹.۷۱٪ دست می‌یابد. این شکاف عمدتاً از طریق تنظیم دقیق (fine-tuning) در مقیاس مدل‌های زبانی بزرگ (LLM) به طرز چشمگیری بسته شده است.
  • تنظیم دقیق تخصصی همچنان از GPT-4 خام بهتر عمل می‌کند. TAT-LLM 7B با ۷۴.۵۶٪ انطباق دقیق، از GPT-4 zero-shot با ۷۱.۹۲٪ در TAT-QA پیشی می‌گیرد، حتی با وجود اینکه تعداد پارامترهای بسیار کمتری دارد. خط‌لوله گام‌به‌گام «استخراج‌کننده ← استدلال‌کننده ← اجراکننده» که TAT-LLM استفاده می‌کند، بازتاب‌دهنده شهود TAGOP است، اما برچسب‌گذار نمادین را با یک LLMِ مهندسی‌شده با پرامپت جایگزین کرده است.

چه چیزی پابرجا می‌ماند — و چه چیزی نه

اعتبار اصلی این معیار ارزیابی در واقعی بودن داده‌ها، سوالات و گزارش‌های مالی است. شکاف ۳۲ واحدی بین انسان و مدل در زمان انتشار کاملاً واقعی بود و مجموعه‌داده به قدری سخت است که حتی پنج سال بعد، برترین سیستم‌ها هنوز آن را کاملاً حل نکرده‌اند.

آنچه مرا نگران می‌کند، فرضِ «تک جدولی» بودن است. هر بافتار در TAT-QA دقیقاً شامل یک جدول است. گزارش‌های سالانه واقعی شامل ده‌ها جدول هستند که اغلب دارای روابط سلسله‌مراتبی در میان بخش‌ها، شرکت‌های تابعه و دوره‌های زمانی مختلف می‌باشند. مدلی که بتواند به سوالات TAT-QA به طور کامل پاسخ دهد، هنوز برای تجمیع اطلاعات میان‌جدولی که بخش عمده‌ای از کار حسابداری واقعی است، آماده نیست. مقاله MMQA (ICLR 2025) دقیقاً به همین نکته اشاره می‌کند — اینکه معیارهای تک‌جدولی مانند TAT-QA، پیچیدگی‌های چندجدولی که متخصصان با آن روبرو هستند را دست‌کم می‌گیرند.

توزیع نوع پاسخ‌ها نیز در عمل به آن سختی که به نظر می‌رسد نیست. حدود ۴۲٪ از پاسخ‌های TAT-QA تک‌بخشی هستند — یعنی استخراج مستقیم که نیازی به محاسبه ندارد. ترکیب‌های چندعملیاتیِ چالش‌برانگیز در اقلیت هستند. مدلی که تمام استخراج‌ها را درست و تمام محاسبات ریاضی را غلط انجام دهد، همچنان امتیازی در محدوده ۳۰ تا ۴۰ درصد کسب می‌کند. این معیار ارزیابی بر اساس دشواری وزن‌دهی نمی‌شود، که باعث می‌شود سیگنال حاصل از موارد استدلال واقعاً دشوار کمرنگ شود.

در نهایت، معیار انسانی (۹۰.۸٪ F1) با استفاده از ارزیابانی محاسبه شده که به اسناد دسترسی داشتند اما لزوماً کارشناسانی در سطح حسابدار رسمی (CPA) نبودند. برای استدلال در سطح دفتر کل Beancount — جایی که دستیار هوش مصنوعی باید سیاست‌های حسابداری را بفهمد و نه فقط محاسبات ریاضی را — ممکن است ۹۰.۸٪ تخمین بیش‌ازحدی از سقف «درست» باشد.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

TAT-QA نزدیک‌ترین معیار ارزیابی عمومی به چیزی است که یک عامل Beancount روزانه با آن روبرو می‌شود: داده‌های ورودی ساختاریافته (جدول) که در کنار روایت غیرساختاریافته (شرح، توضیحات، یادداشت‌های سیاست‌گذاری) قرار دارند. نتیجه TAGOP آنچه را که من از ساخت ابزارهای دفتر کل انتظار داشتم تأیید می‌کند — مستندسازی (grounding) سخت‌تر از محاسبه است. مشکل اصلی، برچسب‌گذاری صحیح سلول‌هاست؛ جمع زدن آن‌ها کار ساده‌ای است.

مسیر جدول رده‌بندی برای محصول امیدوارکننده است: یک مدل با ۷ میلیارد پارامتر که در این حوزه تنظیم دقیق شده، از GPT-4 zero-shot بهتر عمل می‌کند. این نشان می‌دهد که یک مدل تنظیم‌شده‌ی اختصاصی برای Beancount می‌تواند بار کاری بازیابی + محاسبات ریاضی را بدون نیاز به فراخوانی API مدل‌های پیشرو برای هر پرس‌وجوی دفتر کل، مدیریت کند. با اجرای محلی یک مدل متخصص و فشرده، تاخیر، هزینه و حریم خصوصی داده‌ها همگی بهبود می‌یابند.

محدودیت تک‌جدولی، شکاف مستقیمی است که باید در Bean Labs پر شود. دفاتر کل Beancount در عمل اسناد چندجدولی هستند — ثبت‌های حساب، ردیف‌های بودجه، یادداشت‌های مغایرت‌گیری — و معیار ارزیابی که این ساختار چندگامی را در جداول مرتبط ثبت کند، هنوز به طور کامل وجود ندارد. مقاله MultiHiertt (ACL 2022) نزدیک‌ترین مورد به این موضوع است و مقاله بعدی در لیست مطالعه من خواهد بود.

چه چیزی را در ادامه بخوانیم

  • MultiHiertt: Numerical Reasoning over Multi Hierarchical Tabular and Textual Data (arXiv:2206.01347, ACL 2022) — مستقیماً به محدودیت تک‌جدولی TAT-QA می‌پردازد؛ سوالات نیازمند استدلال در چندین جدول سلسله‌مراتبی در یک سند مالی واحد هستند، که به شکل صورت‌های مالی تلفیقی دفتر کل نزدیک‌تر است.
  • ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering (arXiv:2210.03849, EMNLP 2022) — FinQA را به گفتگوهای چندنوبتی گسترش می‌دهد؛ مدل‌ها باید بافتار عددی جاری را در طول نوبت‌های سوال دنبال کنند، که با نحوه مدیریت پرس‌وجوهای تکمیلی توسط یک عامل Beancount در یک نشست کاری مطابقت دارد.
  • TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data (arXiv:2401.13223, ICAIF 2024) — دنباله مستقیم از همان گروه ++NExT؛ نشان می‌دهد که چگونه LLaMA-2 تنظیم‌شده با خط‌لوله استخراج‌کننده ← استدلال‌کننده ← اجراکننده، از GPT-4 zero-shot در TAT-QA و FinQA پیشی می‌گیرد.