ConvFinQA: پرسش و پاسخ مالی چندنوبتی و شکاف ۲۱ امتیازی بین مدلها و متخصصان انسانی
پس از اختصاص چندین گزارش به پرسش و پاسخ مالی تکنوبتی — مانند FinQA، FinanceBench و TAT-QA — میخواستم بررسی کنم زمانی که کاربران سوالات تکمیلی میپرسند چه اتفاقی میافتد. مقاله ConvFinQA (چن و همکاران، EMNLP 2022) چارچوب FinQA را گرفته و آن را به گفتگوهای چندنوبتی تعمیم میدهد. نتایج، حالت شکستی را فاش میکنند که بنچمارکهای تکنوبتی به سادگی قادر به مشاهده آن نیستند: مدلهایی که در استدلال عددی مجزا عالی عمل میکنند، اغلب در لحظهای که سوالی به چیزی که دو نوبت قبل گفته شده ارجاع میدهد، از هم فرو میپاشند.
مقاله
ConvFinQA که توسط ژیو چن، شیانگ لی، چاریس اسمایلی، ژیچیانگ ما، ثمینه شاه و ویلیام یانگ وانگ (از دانشگاه کالیفرنیا، سنتا باربارا و جی.پی. مورگان) تدوین شده است، مجموعهدادهای شامل ۳,۸۹۲ گفتگوی چندنوبتی با مجموع ۱۴,۱۱۵ سوال بر روی ۲,۰۶۶ صفحه گزارش مالی ایجاد میکند. هر گفتگو بر اساس گزارشهای سود (همان پروندههای S&P 500 استفاده شده در FinQA) استوار است و سوالات به صورت زنجیرهای به هم متصل هستند تا نوبتهای بعدی بتوانند به پاسخهای قبلی ارجاع دهند. فرمت وظیفه از FinQA به ارث رسیده است: مدلها برنامهای در یک زبان کوچک مخصوص دامنه (جمع، تفریق، ضرب، تقسیم، بزرگتر، توان) تولید میکنند که سپس برای تولید پاسخ اجرا میشود. ارزیابی از «دقت اجرا» (آیا نتیجه اجرا شده با پاسخ طلایی مطابقت دارد) و «دقت برنامه» (آیا برنامه تولید شده با برنامه طلایی مطابقت دارد) استفاده میکند.
این مجموعهداده دارای دو نوع گفتگو است. گفتگوهای نوع اول «ساده» که یک سوال پیچیده FinQA را به توالی از زیرسوالها تجزیه میکنند. گفتگوهای نوع دوم «ترکیبی» که تجزیه دو سوال مختلف FinQA در مورد یک گزارش را به هم متصل کرده و مدل را مجبور ب ه استدلال چندوجهی میکنند. بیش از ۶۰٪ سوالات به نوبتهای قبلی وابستگی دارند و سوالات بخش دوم در گفتگوهای ترکیبی به طور قابل توجهی دشوارتر هستند، زیرا مدل باید وضعیت استدلال را در موضوعات مالی مختلف حفظ کند.
ایدههای کلیدی
- بهترین مدل تنظیمشده (FinQANet با RoBERTa-large): دقت اجرای ۶۸.۹۰٪ در مجموعه آزمون. متخصصان مالی انسانی به ۸۹.۴۴٪ میرسند. کارگران معمولی (MTurk): ۴۶.۹۰٪ — شکاف قابل توجهی که تایید میکند این وظیفه نیازمند دانش تخصصی واقعی در دامنه است.
- مدل GPT-3 (نسخه text-davinci-002، ۱۷۵ میلیارد پارامتری) با ۲۰ نمونه چندباره (few-shot) و حقایق پشتیبان طلایی: دقت اجرای ۵۰.۳۰٪ — بسیار پایینتر از متخصص تنظیمشده و به سختی بالاتر از افراد معمولی.
- پرامپتنویسی زنجیره افکار (CoT) به GPT-3 آسیب میزند: CoT دقت ۴۰.۶۳٪ را در مقابل ۴۵.۱۵٪ برای پرامپتنویسی استاندارد برنامه ارائه میدهد. مدل به جای اعمال استدلال بر روی سوال واقعی، از فرمت استدلال مثالهای داده شده تقلید میکند.
- گفتگوهای ترکیبی به طور قابل توجهی دشوارتر هستند: بخش دوم یک گفتگوی ترکیبی برای FinQANet نمره ۵۲.۳۸٪ را در مقابل ۷۲.۳۷٪ برای گفتگوهای ساده کسب میکند. ارجاع متقابل چندوجهی جایی است که مدلهای فعلی شکست میخورند.
- مدل GPT-3 به طور خاص با سوالات انتخاب عدد مشکل دارد — برای مثال پاسخ به سوال تکمیلی مانند «در مورد سال قبل چطور؟» — و تنها به ۳۵.۳۲٪ دست مییابد در حالی که FinQANet به ۸۲.۵۴٪ میرسد. حل ابهام ارجاعی (anaphora resolution) در گفتگو، گلوگاه اصلی است.
چه چیزی پابرجا است — و چه چیزی نیست
ساخت مجموعهداده دقیق و ارزیابی شفاف است. استفاده از دقت برنامه در کنار دقت اجرا ارزشمند است: دو برنامه میتوانند از طریق مسیرهای استدلال مختلف (و احتمالاً اشتباه) پاسخ عددی یکسانی تولید کنند و دقت برنامه این موضوع را تشخیص میدهد. تصمیم برای لنگر انداختن گفتگوها در پروندههای واقعی S&P 500 باعث میشود وظیفه به جای مصنوعی بودن، مبتنی بر واقعیت باشد.
با این حال، تنوع گفتگوها به دلیل طراحی محدود است. هر گفتگو با تجزیه سوالات موجود FinQA ساخته شده است — هیچ دیالوگ واقعاً باز، نوبتهای شفافسازی یا اصلاحات کاربر وجود ندارد. گفتگوهای حسابداری واقعی شامل همه این موارد هستند. این مجموعهداده یک تقریب کنترلشده از استدلال محاورهای است، نه یک نمونه طبیعی.
تحلیل GPT-3 به شکل عجیبی قدیمی شده است. در زمان انتشار (اواخر ۲۰۲۲)، رسیدن GPT-3 به زیر ۵۰٪ یک نتیجه منفی معنادار به نظر میرسید. اما این مقاله قبل از GPT-4 است و کارهای بعدی نشان میدهند که مدلهای توانمندتر بخش بزرگی از این شکاف را پر میکنند. یافته CoT — که پرامپتنویسی نتیجه معکوس داشت — جالب است اما ممکن است مختص مدل باشد: CoT در مدلهایی با قابلیت پیروی از دستورالعمل قویتر، بهتر عمل میکند.
ارزیابی همچنین کاملاً بر روی صحت پاسخ نهایی تمرکز دارد و کیفیت زنجیره استدلال میانی را نادیده میگیرد. این موضوع مهم است زیرا یک مدل میتواند پاسخ عددی صحیح را از طریق یک برنامه اشتباه (که دقت برنامه تا حدی آن را شناسایی میکند) یا یک برنامه صحیح از طریق استدلال شکننده تولید کند که با یک بازنویسی جزئی شکست میخورد. مقاله FinChain (2025) صراحتاً از این موضوع انتقاد کرده و انگیزهای برای یک جایگزین متمرکز بر شفافیت ایجاد میکند. برای سیستمهای عملیاتی، دانستن چرا مدل به پاسخ درست رسیده است به اندازه دانستن درست بودن آن اهمیت دارد.
چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد
یک عامل Beancount که به پرسشهای کاربران پاسخ میدهد، به ندرت یک سوال واحد و مستقل دریافت میکند. کاربران میپرسند «ماه گذشته چقدر برای خواربار هزینه کردم؟» و سپس «این در مقایسه با ماه قبل چگونه است؟» و بعد «آیا این بیشتر از بودجهبندی من است؟». هر سوال بر پایه سوال قبلی بنا میشود. ConvFinQA نزدیکترین بنچمارک منتشر شده به این الگوی تعامل است و اعداد آن تاملبرانگیز است: حتی با بازیابی طلایی، بهترین مدل موجود در سال ۲۰۲۲ شکافی حدود ۲۱ واحد درصدی نسبت به عملکرد متخصص انسانی داشت و این شکاف در سوالات چندوجهی بیشتر میشود.
شکست خاص در گفتگوهای ترکیبی قابل تامل است. وقتی کاربری در یک جلسه از سوال درباره درآمد به سوال درباره هزینهها تغییر مسیر میدهد، مدل باید بافت عددی را حفظ کرده و در عین حال تمرکز موضوعی را بازنشانی کند. این دقیقاً هما ن کاری است که یک عامل Beancount باید در طول یک جلسه بررسی دفتر کل چندنوبتی انجام دهد. نمره ۵۲.۳۸٪ در آن نوبتها، یک حد پایین مستقیم برای میزان موفقیت رویکردهای فعلی در مدیریت این سناریو است.
یافته CoT نیز از نظر عملی مفید است: این نشان میدهد که هنگام پرامپتنویسی برای استدلال یک مدل روی دادههای مالی در یک محیط چندنوبتی، تولید برنامه ساختاریافته ممکن است قابل اعتمادتر از زنجیره افکار آزاد باشد، حداقل برای مدلهایی در سطح توانایی GPT-3. مدلهای توانمندتر ممکن است این معکوسشدگی را نشان ندهند — اما این فرضیهای برای آزمایش است، نه فرضی برای پذیرش.
منابع پیشنهادی برای مطالعه بیشتر
- پیگیری ConvFinQA APOLLO (arXiv:2212.07249) — با استفاده از نمونهبرداری منفی آگاه از عدد و یادگیری تقویتی مبتنی بر ثبات، به وضعیت هنر (SOTA) در ConvFinQA دست مییابد؛ برای دیدن اینکه چه چیزی شکاف را پس از مقاله اصلی پر کرد، ارزش خواندن دارد.
- پرامپتنویسی برنامه افکار (arXiv:2211.12737, 2022) — محاسبات حسابی را به جای یک DSL به یک مفسر پایتون واگذار میکند؛ حدود ۱۲٪ بهبود نسبت به CoT در وظایف پرسش و پاسخ مالی و عملکردی نزدیک به SOTA در ConvFinQA گزارش کرده است؛ ایدههای CodeAct را مستقیماً به استدلال مالی متصل میکند.
- FLARE: تولید تقویتشده با بازیابی فعال (arXiv:2305.06983, EMNLP 2023) — در طول تولید به جای یک بار در ابتدا، بازیابی را به صورت درخواستی انجام میدهد؛ مستقیماً با تنظیمات چندنوبتی مرتبط است، جایی که نیاز مدل به جستجو نوبت به نوبت تغییر میکند.
