TAT-LLM: مدل LLaMA 2 تنظیمدقیقشده برای استدلال گسسته روی جداول و متون مالی
پس از یک هفته بررسی بازیابی و تزریق دانش، میخواستم به جنبه دیگر موضوع نگاه کنم: تنظیم دقیق هدفمند (targeted fine-tuning) واقعاً چه دستاوردی در وظایف مشخص دارد؟ TAT-LLM (arXiv:2401.13223، ICAIF 2024) یکی از پاسخهای شفاف است: تنظیم دقیق LLaMA 2 با یک خط لوله (pipeline) ساختاریافته روی بنچمارکهای پرسش و پاسخ جداول و متون مالی که منجر به شکست دادن GPT-4 میشود. البته جزئیات، طبق معمول، حائز اهمیت هستند.
مقاله
فنگبین ژو، زیانگ لیو، فولی فنگ، چائو وانگ، موکسین لی و تات-سنگ چوا از NExT++ در دانشگاه ملی سنگاپور (NUS)، مدل TAT-LLM را معرفی میکنند؛ یک مدل LLaMA 2 که برای استدلال گسسته روی دادههای ترکیبی جدولی و متنی تنظیم دقیق شده است. مسئله اصلی، پاسخگویی به سوالات عددی بر اساس گزارشهای مالی است؛ سوالاتی که مستلزم یافتن یک سطر خاص در جدول، استخراج دو رقم و انجام یک عملیات محاسباتی چندمرحلهای برای رسیدن به پاسخ است. این دقیقاً همان کاری است که انسانها هنگام مطالعه پروندههای 10-K انجام میدهند.
نویسندگان به جای استفاده از یک مدل بزرگ به صورت سرتاسری (end-to-end)، وظیفه را به سه مرحله صریح تقسیم میکنند: یک «استخراجکننده» (Extractor) که شواهد عددی مرتبط را از سند شناسایی میکند، یک «استدلالگر» (Reasoner) که یک عبارت محاسباتی مینویسد، و یک «مجری» (Executor) که عبارت را به صورت قطعی اجرا میکند. دادههای آموزشی به طور خودکار از مجموعهدادههای موجود که توسط متخصصان حاشیهنویسی شدهاند — مانند FinQA، TAT-QA و TAT-DQA — با افزودن مراحل میانی استخراج و استدلال به هر نمونه تولید شدهاند. تنظیم دقیق با استفاده از LoRA در سه مقیاس LLaMA 2 (7B، 13B و 70B) انجام شده است.
ایدههای کلیدی
- تجزیه خط لوله بهتر از مدل سرتاسری عمل میکند: مجری خارجی (محاسبات قطعی) به تنهایی ۱۶.۶۶ امتیاز EM به مدل 7B در بنچمارک FinQA اضافه میکند. محاسبات برای مدل دشوار نیست، بلکه انجام آن در قالب زبان طبیعی به طرز فاجعهباری غیرقابل اعتماد است.
- مدل 7B در هر سه بنچمارک GPT-4 را شکست میدهد: TAT-LLM 7B در FinQA امتیاز ۶۴.۶۰٪ EM (در مقابل ۶۳.۹۱٪ برای GPT-4)، در TAT-QA امتیاز ۷۴.۵۶٪ EM (در مقابل ۷۱.۹۲٪) و در TAT-DQA امتیاز ۶۹.۴۵٪ EM (در مقابل ۶۴.۴۶٪) را کسب کرد. شکاف در TAT-DQA با نزدیک به ۵ امتیاز، متقاعدکنندهترین است.
- استخراج، گلوگاه اصلی شکست است: تحلیل خطاها نشان میدهد که ۴۸٪ از اشتباهات به استخراج نادرست شواهد برمیگردد — مدل سطر یا ستون اشتباهی را شناسایی میکند یا به دلیل اصطلاحات مالی ناآشنا، عددی را اشتباه میخواند. تنها ۱۹٪ مربوط به عملگرهای اشتباه است.
- مقیاسگذاری کمک کمی میکند: نسخه ۷۰ میلیاردی آموزشدیده به صورت مشترک (TAT-LLM-All)، امتیاز FinQA را به ۷۶.۸۱٪ EM و TAT-QA را به ۸۱.۴۲٪ F1 میرساند که دستاوردهای معناداری هستند. اما مدل 7B پیش از این GPT-4 را پشت سر گذاشته بود که نشان میدهد ساختار خط لوله مهمتر از تعداد پارامترهاست.
- کارشناسان انسانی همچنان بسیار جلوتر هستند: در TAT-QA، عملکرد انسانی ۹۰.۸٪ F1 است؛ بهترین نتیجه TAT-LLM برابر با ۸۱.۴۲٪ F1 است. این شکاف واقعی است و مقاله نیز به آن اذعان دارد.
چه مواردی تایید میشوند و چه مواردی خیر
مشارکت فنی اصلی صحیح است: برونسپاری محاسبات به یک مجری قطعی قطعاً تصمیم درستی است و آزمایشهای حذف (ablation) این موضوع را قاطعانه ثابت میکند. این یک درس شناختهشده از PAL و کارهای مشابه است، اما مشاهده عددی آن (۱۶.۶۶+ امتیاز) در یک بنچمارک تخصصی مالی، تاییدیه ارزشمندی است.
آنچه من نسبت به آن بدبین هستم، ادعای اصلی «برتری نسبت به GPT-4» است. حاشیه برتری در FinQA تنها ۰.۶۹ امتیاز EM است — که اساساً در محدوده خطا قرار دارد — و ارقام مربوط به GPT-4 منعکسکننده ارزیابی بدون نمونه یا با راهنماییهای اندک است، نه GPT-4 با زنجیره فکر (CoT)، مثالهای چندنمونهای یا مفسر کد اختصاصیاش. یک مدل GPT-4 با استفاده از ابزار پایتون قطعاً از این ارقام فراتر میرود. این مقایسه اشتباه نیست، اما کاملاً با داستان «پیروزی تخصصیسازی» که در چکیده القا میشود، همخوانی ندارد.
همچنین نگرانی جدی در مورد نشت دادههای ارزیابی (evaluation leak) وجود دارد. مدل بر روی بخشهای آموزشی FinQA، TAT-QA و TAT-DQA تنظیم دقیق شده و بر روی بخشهای آزمون آنها ارزیابی شده است. این یک محیط درون-توزیعی (in-distribution) محدود است. مقاله شامل وظایف پرسش و پاسخ مالی جداگانهای نیست که مدل در طول آموزش ندیده باشد، بنابراین تعمیمپذیری به انواع اسناد جدید یا الگوهای محاسباتی جدید ثابت نشده است.
محدودیت بافت (context) ۴,۰۹۶ توکنی، یک مانع عملی برای گزارشهای مالی واقعی است. یک گزارش معمول 10-K بیش از ۱۰۰ صفحه است؛ حتی یک گزارش سود فصلی ساده اغلب از ۴,۰۹۶ توکن فراتر میرود. مدل توصیفشده نمیتواند ورودیهایی را که برای آنها طراحی شده بدون قطعهبندی (chunking) پردازش کند و مقاله به این موضوع نمیپردازد که چگونه استخراج شواهد در صورت پراکندگی در چندین قطعه، دچار افت میشود.
چرا این موضوع برای هوش مصنوعی در امور مالی مهم است
تجزیه استخراجکننده-استدلالگر-مجری مستقیماً برای عوامل (agents) Beancount قابل اجراست. وقتی کاربری میپرسد «هزینه کل غذای من در سه ماهه اول ۲۰۲۵ نسبت به سه ماهه اول ۲۰۲۴ چقدر بود؟»، ساختار طبیعی این است: مکانیابی تراکنشهای مرتبط (استخراج)، ساخت یک عبارت تجمیعی (استدلال) و اجرای آن روی دفتر کل (اجرا). تحلیل خطای TAT-LLM یک پیشبینی عینی ارائه میدهد: مرحله استخراج جایی است که یک عامل Beancount اغلب در آن شکست میخورد — دستهبندی اشتباه حسابها، تراکنشهای از دست رفته، مبالغ اشتباه خوانده شده — و نه در بخش محاسبات.
رویکرد تنظیم دقیق LoRA نیز برای هر کسی که یک مدل اختصاصی Beancount میسازد مرتبط است. استراتژی تولید دادههای آموزشی — استفاده از جفتهای پرسش و پاسخ حاشیهنویسی شده توسط متخصصان و افزودن مراحل میانی — دقیقاً همان روشی است که برای ساخت یک مجموعهداده استدلال اختصاصی دفتر کل استفاده میشود. شما ورودیهای واقعی دفتر کل را دارید و میتوانید چندتاییهای (سوال، استخراج، عبارت، پاسخ) را به طور خودکار تولید کنید.
محدودیت بافت بزرگترین مانع است. یک عامل Beancount عملیاتی نیاز دارد تا روی ورودیهای چندین سال استدلال کند. مدل این مقاله آن نیست؛ بلکه یک پایه قوی برای پرسش و پاسخ اسناد کوتاه است که برای کاربردی شدن، باید با قطعهبندی، بازیابی یا پنجره بافت طولانیتر گسترش یابد.
مطالعه بیشتر
- FinQA (arXiv:2109.00122، EMNLP 2021) — بنچمارک اصلی که TAT-LLM بر اساس آن ارزیابی شده است؛ مطالعه آن دقیقاً روشن میکند که «استدلال گسسته روی دادههای مالی» به چه معناست و وضعیت قبلی تکنولوژی (SOTA) قبل از مدلهای زبانی بزرگ چگونه بوده است.
- TAGOP (بخشی از مقاله TAT-QA، arXiv:2105.07624، ACL 2021) — مدل عملگر آگاه از جدول که وظیفه TAT-QA را تعریف کرد؛ درک چگونگی انتخاب عملگر مبتنی بر قانون، معیاری برای درک آن چیزی فراهم میکند که مرحله استدلالگر مبتنی بر LLM جایگزین آن شده است.
- AuditCopilot (arXiv:2512.02726) — بنچمارک کردن LLaMA و Gemma در شناسایی ناهنجاریهای تست اسناد حسابداری (Journal Entry Test) روی دادههای واقعی دفتر کل؛ سوال بعدی پس از TAT-LLM این است که آیا همین رویکرد تنظیم دقیق به جای پرسش و پاسخ، در شناسایی ناهنجاریها نیز کاربرد دارد یا خیر.
