پرش به محتوای اصلی

TAT-LLM: مدل LLaMA 2 تنظیم‌دقیق‌شده برای استدلال گسسته روی جداول و متون مالی

· زمان مطالعه 7 دقیقه
Mike Thrift
Mike Thrift
Marketing Manager

پس از یک هفته بررسی بازیابی و تزریق دانش، می‌خواستم به جنبه دیگر موضوع نگاه کنم: تنظیم دقیق هدفمند (targeted fine-tuning) واقعاً چه دستاوردی در وظایف مشخص دارد؟ TAT-LLM (arXiv:2401.13223، ICAIF 2024) یکی از پاسخ‌های شفاف است: تنظیم دقیق LLaMA 2 با یک خط لوله (pipeline) ساختاریافته روی بنچ‌مارک‌های پرسش و پاسخ جداول و متون مالی که منجر به شکست دادن GPT-4 می‌شود. البته جزئیات، طبق معمول، حائز اهمیت هستند.

مقاله

2026-05-21-tat-llm-specialized-language-model-discrete-reasoning-tabular-textual

فنگ‌بین ژو، زیانگ لیو، فولی فنگ، چائو وانگ، موکسین لی و تات-سنگ چوا از NExT++ در دانشگاه ملی سنگاپور (NUS)، مدل TAT-LLM را معرفی می‌کنند؛ یک مدل LLaMA 2 که برای استدلال گسسته روی داده‌های ترکیبی جدولی و متنی تنظیم دقیق شده است. مسئله اصلی، پاسخگویی به سوالات عددی بر اساس گزارش‌های مالی است؛ سوالاتی که مستلزم یافتن یک سطر خاص در جدول، استخراج دو رقم و انجام یک عملیات محاسباتی چندمرحله‌ای برای رسیدن به پاسخ است. این دقیقاً همان کاری است که انسان‌ها هنگام مطالعه پرونده‌های 10-K انجام می‌دهند.

نویسندگان به جای استفاده از یک مدل بزرگ به صورت سرتاسری (end-to-end)، وظیفه را به سه مرحله صریح تقسیم می‌کنند: یک «استخراج‌کننده» (Extractor) که شواهد عددی مرتبط را از سند شناسایی می‌کند، یک «استدلال‌گر» (Reasoner) که یک عبارت محاسباتی می‌نویسد، و یک «مجری» (Executor) که عبارت را به صورت قطعی اجرا می‌کند. داده‌های آموزشی به طور خودکار از مجموعه‌داده‌های موجود که توسط متخصصان حاشیه‌نویسی شده‌اند — مانند FinQA، TAT-QA و TAT-DQA — با افزودن مراحل میانی استخراج و استدلال به هر نمونه تولید شده‌اند. تنظیم دقیق با استفاده از LoRA در سه مقیاس LLaMA 2 (7B، 13B و 70B) انجام شده است.

ایده‌های کلیدی

  • تجزیه خط لوله بهتر از مدل سرتاسری عمل می‌کند: مجری خارجی (محاسبات قطعی) به تنهایی ۱۶.۶۶ امتیاز EM به مدل 7B در بنچ‌مارک FinQA اضافه می‌کند. محاسبات برای مدل دشوار نیست، بلکه انجام آن در قالب زبان طبیعی به طرز فاجعه‌باری غیرقابل اعتماد است.
  • مدل 7B در هر سه بنچ‌مارک GPT-4 را شکست می‌دهد: TAT-LLM 7B در FinQA امتیاز ۶۴.۶۰٪ EM (در مقابل ۶۳.۹۱٪ برای GPT-4)، در TAT-QA امتیاز ۷۴.۵۶٪ EM (در مقابل ۷۱.۹۲٪) و در TAT-DQA امتیاز ۶۹.۴۵٪ EM (در مقابل ۶۴.۴۶٪) را کسب کرد. شکاف در TAT-DQA با نزدیک به ۵ امتیاز، متقاعدکننده‌ترین است.
  • استخراج، گلوگاه اصلی شکست است: تحلیل خطاها نشان می‌دهد که ۴۸٪ از اشتباهات به استخراج نادرست شواهد برمی‌گردد — مدل سطر یا ستون اشتباهی را شناسایی می‌کند یا به دلیل اصطلاحات مالی ناآشنا، عددی را اشتباه می‌خواند. تنها ۱۹٪ مربوط به عملگرهای اشتباه است.
  • مقیاس‌گذاری کمک کمی می‌کند: نسخه ۷۰ میلیاردی آموزش‌دیده به صورت مشترک (TAT-LLM-All)، امتیاز FinQA را به ۷۶.۸۱٪ EM و TAT-QA را به ۸۱.۴۲٪ F1 می‌رساند که دستاوردهای معناداری هستند. اما مدل 7B پیش از این GPT-4 را پشت سر گذاشته بود که نشان می‌دهد ساختار خط لوله مهم‌تر از تعداد پارامترهاست.
  • کارشناسان انسانی همچنان بسیار جلوتر هستند: در TAT-QA، عملکرد انسانی ۹۰.۸٪ F1 است؛ بهترین نتیجه TAT-LLM برابر با ۸۱.۴۲٪ F1 است. این شکاف واقعی است و مقاله نیز به آن اذعان دارد.

چه مواردی تایید می‌شوند و چه مواردی خیر

مشارکت فنی اصلی صحیح است: برون‌سپاری محاسبات به یک مجری قطعی قطعاً تصمیم درستی است و آزمایش‌های حذف (ablation) این موضوع را قاطعانه ثابت می‌کند. این یک درس شناخته‌شده از PAL و کارهای مشابه است، اما مشاهده عددی آن (۱۶.۶۶+ امتیاز) در یک بنچ‌مارک تخصصی مالی، تاییدیه ارزشمندی است.

آنچه من نسبت به آن بدبین هستم، ادعای اصلی «برتری نسبت به GPT-4» است. حاشیه برتری در FinQA تنها ۰.۶۹ امتیاز EM است — که اساساً در محدوده خطا قرار دارد — و ارقام مربوط به GPT-4 منعکس‌کننده ارزیابی بدون نمونه یا با راهنمایی‌های اندک است، نه GPT-4 با زنجیره فکر (CoT)، مثال‌های چند‌نمونه‌ای یا مفسر کد اختصاصی‌اش. یک مدل GPT-4 با استفاده از ابزار پایتون قطعاً از این ارقام فراتر می‌رود. این مقایسه اشتباه نیست، اما کاملاً با داستان «پیروزی تخصصی‌سازی» که در چکیده القا می‌شود، همخوانی ندارد.

همچنین نگرانی جدی در مورد نشت داده‌های ارزیابی (evaluation leak) وجود دارد. مدل بر روی بخش‌های آموزشی FinQA، TAT-QA و TAT-DQA تنظیم دقیق شده و بر روی بخش‌های آزمون آن‌ها ارزیابی شده است. این یک محیط درون-توزیعی (in-distribution) محدود است. مقاله شامل وظایف پرسش و پاسخ مالی جداگانه‌ای نیست که مدل در طول آموزش ندیده باشد، بنابراین تعمیم‌پذیری به انواع اسناد جدید یا الگوهای محاسباتی جدید ثابت نشده است.

محدودیت بافت (context) ۴,۰۹۶ توکنی، یک مانع عملی برای گزارش‌های مالی واقعی است. یک گزارش معمول 10-K بیش از ۱۰۰ صفحه است؛ حتی یک گزارش سود فصلی ساده اغلب از ۴,۰۹۶ توکن فراتر می‌رود. مدل توصیف‌شده نمی‌تواند ورودی‌هایی را که برای آن‌ها طراحی شده بدون قطعه‌بندی (chunking) پردازش کند و مقاله به این موضوع نمی‌پردازد که چگونه استخراج شواهد در صورت پراکندگی در چندین قطعه، دچار افت می‌شود.

چرا این موضوع برای هوش مصنوعی در امور مالی مهم است

تجزیه استخراج‌کننده-استدلال‌گر-مجری مستقیماً برای عوامل (agents) Beancount قابل اجراست. وقتی کاربری می‌پرسد «هزینه کل غذای من در سه ماهه اول ۲۰۲۵ نسبت به سه ماهه اول ۲۰۲۴ چقدر بود؟»، ساختار طبیعی این است: مکان‌یابی تراکنش‌های مرتبط (استخراج)، ساخت یک عبارت تجمیعی (استدلال) و اجرای آن روی دفتر کل (اجرا). تحلیل خطای TAT-LLM یک پیش‌بینی عینی ارائه می‌دهد: مرحله استخراج جایی است که یک عامل Beancount اغلب در آن شکست می‌خورد — دسته‌بندی اشتباه حساب‌ها، تراکنش‌های از دست رفته، مبالغ اشتباه خوانده شده — و نه در بخش محاسبات.

رویکرد تنظیم دقیق LoRA نیز برای هر کسی که یک مدل اختصاصی Beancount می‌سازد مرتبط است. استراتژی تولید داده‌های آموزشی — استفاده از جفت‌های پرسش و پاسخ حاشیه‌نویسی شده توسط متخصصان و افزودن مراحل میانی — دقیقاً همان روشی است که برای ساخت یک مجموعه‌داده استدلال اختصاصی دفتر کل استفاده می‌شود. شما ورودی‌های واقعی دفتر کل را دارید و می‌توانید چندتایی‌های (سوال، استخراج، عبارت، پاسخ) را به طور خودکار تولید کنید.

محدودیت بافت بزرگترین مانع است. یک عامل Beancount عملیاتی نیاز دارد تا روی ورودی‌های چندین سال استدلال کند. مدل این مقاله آن نیست؛ بلکه یک پایه قوی برای پرسش و پاسخ اسناد کوتاه است که برای کاربردی شدن، باید با قطعه‌بندی، بازیابی یا پنجره بافت طولانی‌تر گسترش یابد.

مطالعه بیشتر

  • FinQA (arXiv:2109.00122، EMNLP 2021) — بنچ‌مارک اصلی که TAT-LLM بر اساس آن ارزیابی شده است؛ مطالعه آن دقیقاً روشن می‌کند که «استدلال گسسته روی داده‌های مالی» به چه معناست و وضعیت قبلی تکنولوژی (SOTA) قبل از مدل‌های زبانی بزرگ چگونه بوده است.
  • TAGOP (بخشی از مقاله TAT-QA، arXiv:2105.07624، ACL 2021) — مدل عملگر آگاه از جدول که وظیفه TAT-QA را تعریف کرد؛ درک چگونگی انتخاب عملگر مبتنی بر قانون، معیاری برای درک آن چیزی فراهم می‌کند که مرحله استدلال‌گر مبتنی بر LLM جایگزین آن شده است.
  • AuditCopilot (arXiv:2512.02726) — بنچ‌مارک کردن LLaMA و Gemma در شناسایی ناهنجاری‌های تست اسناد حسابداری (Journal Entry Test) روی داده‌های واقعی دفتر کل؛ سوال بعدی پس از TAT-LLM این است که آیا همین رویکرد تنظیم دقیق به جای پرسش و پاسخ، در شناسایی ناهنجاری‌ها نیز کاربرد دارد یا خیر.