ConvFinQA: پرسش و پاسخ مالی چند‌نوبتی و شکاف ۲۱ امتیازی بین مدل‌ها و متخصصان انسانی

۲۵ اردیبهشت ۱۴۰۵ · زمان مطالعه 7 دقیقه

Mike Thrift

Marketing Manager

پس از اختصاص چندین گزارش به پرسش و پاسخ مالی تک‌نوبتی — مانند FinQA، FinanceBench و TAT-QA — می‌خواستم بررسی کنم زمانی که کاربران سوالات تکمیلی می‌پرسند چه اتفاقی می‌افتد. مقاله ConvFinQA (چن و همکاران، EMNLP 2022) چارچوب FinQA را گرفته و آن را به گفتگوهای چند‌نوبتی تعمیم می‌دهد. نتایج، حالت شکستی را فاش می‌کنند که بنچ‌مارک‌های تک‌نوبتی به سادگی قادر به مشاهده آن نیستند: مدل‌هایی که در استدلال عددی مجزا عالی عمل می‌کنند، اغلب در لحظه‌ای که سوالی به چیزی که دو نوبت قبل گفته شده ارجاع می‌دهد، از هم فرو می‌پاشند.

مقاله

2026-05-15-convfinqa-chain-numerical-reasoning-conversational-finance-qa

ConvFinQA که توسط ژیو چن، شیانگ لی، چاریس اسمایلی، ژیچیانگ ما، ثمینه شاه و ویلیام یانگ وانگ (از دانشگاه کالیفرنیا، سنتا باربارا و جی.پی. مورگان) تدوین شده است، مجموعه‌داده‌ای شامل ۳,۸۹۲ گفتگوی چند‌نوبتی با مجموع ۱۴,۱۱۵ سوال بر روی ۲,۰۶۶ صفحه گزارش مالی ایجاد می‌کند. هر گفتگو بر اساس گزارش‌های سود (همان پرونده‌های S&P 500 استفاده شده در FinQA) استوار است و سوالات به صورت زنجیره‌ای به هم متصل هستند تا نوبت‌های بعدی بتوانند به پاسخ‌های قبلی ارجاع دهند. فرمت وظیفه از FinQA به ارث رسیده است: مدل‌ها برنامه‌ای در یک زبان کوچک مخصوص دامنه (جمع، تفریق، ضرب، تقسیم، بزرگتر، توان) تولید می‌کنند که سپس برای تولید پاسخ اجرا می‌شود. ارزیابی از «دقت اجرا» (آیا نتیجه اجرا شده با پاسخ طلایی مطابقت دارد) و «دقت برنامه» (آیا برنامه تولید شده با برنامه طلایی مطابقت دارد) استفاده می‌کند.

این مجموعه‌داده دارای دو نوع گفتگو است. گفتگوهای نوع اول «ساده» که یک سوال پیچیده FinQA را به توالی از زیر‌سوال‌ها تجزیه می‌کنند. گفتگوهای نوع دوم «ترکیبی» که تجزیه دو سوال مختلف FinQA در مورد یک گزارش را به هم متصل کرده و مدل را مجبور به استدلال چند‌وجهی می‌کنند. بیش از ۶۰٪ سوالات به نوبت‌های قبلی وابستگی دارند و سوالات بخش دوم در گفتگوهای ترکیبی به طور قابل توجهی دشوارتر هستند، زیرا مدل باید وضعیت استدلال را در موضوعات مالی مختلف حفظ کند.

ایده‌های کلیدی

بهترین مدل تنظیم‌شده (FinQANet با RoBERTa-large): دقت اجرای ۶۸.۹۰٪ در مجموعه آزمون. متخصصان مالی انسانی به ۸۹.۴۴٪ می‌رسند. کارگران معمولی (MTurk): ۴۶.۹۰٪ — شکاف قابل توجهی که تایید می‌کند این وظیفه نیازمند دانش تخصصی واقعی در دامنه است.
مدل GPT-3 (نسخه text-davinci-002، ۱۷۵ میلیارد پارامتری) با ۲۰ نمونه چند‌باره (few-shot) و حقایق پشتیبان طلایی: دقت اجرای ۵۰.۳۰٪ — بسیار پایین‌تر از متخصص تنظیم‌شده و به سختی بالاتر از افراد معمولی.
پرامپت‌نویسی زنجیره افکار (CoT) به GPT-3 آسیب می‌زند: CoT دقت ۴۰.۶۳٪ را در مقابل ۴۵.۱۵٪ برای پرامپت‌نویسی استاندارد برنامه ارائه می‌دهد. مدل به جای اعمال استدلال بر روی سوال واقعی، از فرمت استدلال مثال‌های داده شده تقلید می‌کند.
گفتگوهای ترکیبی به طور قابل توجهی دشوارتر هستند: بخش دوم یک گفتگوی ترکیبی برای FinQANet نمره ۵۲.۳۸٪ را در مقابل ۷۲.۳۷٪ برای گفتگوهای ساده کسب می‌کند. ارجاع متقابل چند‌وجهی جایی است که مدل‌های فعلی شکست می‌خورند.
مدل GPT-3 به طور خاص با سوالات انتخاب عدد مشکل دارد — برای مثال پاسخ به سوال تکمیلی مانند «در مورد سال قبل چطور؟» — و تنها به ۳۵.۳۲٪ دست می‌یابد در حالی که FinQANet به ۸۲.۵۴٪ می‌رسد. حل ابهام ارجاعی (anaphora resolution) در گفتگو، گلوگاه اصلی است.

چه چیزی پابرجا است — و چه چیزی نیست

ساخت مجموعه‌داده دقیق و ارزیابی شفاف است. استفاده از دقت برنامه در کنار دقت اجرا ارزشمند است: دو برنامه می‌توانند از طریق مسیرهای استدلال مختلف (و احتمالاً اشتباه) پاسخ عددی یکسانی تولید کنند و دقت برنامه این موضوع را تشخیص می‌دهد. تصمیم برای لنگر انداختن گفتگوها در پرونده‌های واقعی S&P 500 باعث می‌شود وظیفه به جای مصنوعی بودن، مبتنی بر واقعیت باشد.

با این حال، تنوع گفتگوها به دلیل طراحی محدود است. هر گفتگو با تجزیه سوالات موجود FinQA ساخته شده است — هیچ دیالوگ واقعاً باز، نوبت‌های شفاف‌سازی یا اصلاحات کاربر وجود ندارد. گفتگوهای حسابداری واقعی شامل همه این موارد هستند. این مجموعه‌داده یک تقریب کنترل‌شده از استدلال محاوره‌ای است، نه یک نمونه طبیعی.

تحلیل GPT-3 به شکل عجیبی قدیمی شده است. در زمان انتشار (اواخر ۲۰۲۲)، رسیدن GPT-3 به زیر ۵۰٪ یک نتیجه منفی معنادار به نظر می‌رسید. اما این مقاله قبل از GPT-4 است و کارهای بعدی نشان می‌دهند که مدل‌های توانمندتر بخش بزرگی از این شکاف را پر می‌کنند. یافته CoT — که پرامپت‌نویسی نتیجه معکوس داشت — جالب است اما ممکن است مختص مدل باشد: CoT در مدل‌هایی با قابلیت پیروی از دستورالعمل قوی‌تر، بهتر عمل می‌کند.

ارزیابی همچنین کاملاً بر روی صحت پاسخ نهایی تمرکز دارد و کیفیت زنجیره استدلال میانی را نادیده می‌گیرد. این موضوع مهم است زیرا یک مدل می‌تواند پاسخ عددی صحیح را از طریق یک برنامه اشتباه (که دقت برنامه تا حدی آن را شناسایی می‌کند) یا یک برنامه صحیح از طریق استدلال شکننده تولید کند که با یک بازنویسی جزئی شکست می‌خورد. مقاله FinChain (2025) صراحتاً از این موضوع انتقاد کرده و انگیزه‌ای برای یک جایگزین متمرکز بر شفافیت ایجاد می‌کند. برای سیستم‌های عملیاتی، دانستن چرا مدل به پاسخ درست رسیده است به اندازه دانستن درست بودن آن اهمیت دارد.

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

یک عامل Beancount که به پرسش‌های کاربران پاسخ می‌دهد، به ندرت یک سوال واحد و مستقل دریافت می‌کند. کاربران می‌پرسند «ماه گذشته چقدر برای خواربار هزینه کردم؟» و سپس «این در مقایسه با ماه قبل چگونه است؟» و بعد «آیا این بیشتر از بودجه‌بندی من است؟». هر سوال بر پایه سوال قبلی بنا می‌شود. ConvFinQA نزدیک‌ترین بنچ‌مارک منتشر شده به این الگوی تعامل است و اعداد آن تامل‌برانگیز است: حتی با بازیابی طلایی، بهترین مدل موجود در سال ۲۰۲۲ شکافی حدود ۲۱ واحد درصدی نسبت به عملکرد متخصص انسانی داشت و این شکاف در سوالات چند‌وجهی بیشتر می‌شود.

شکست خاص در گفتگوهای ترکیبی قابل تامل است. وقتی کاربری در یک جلسه از سوال درباره درآمد به سوال درباره هزینه‌ها تغییر مسیر می‌دهد، مدل باید بافت عددی را حفظ کرده و در عین حال تمرکز موضوعی را بازنشانی کند. این دقیقاً همان کاری است که یک عامل Beancount باید در طول یک جلسه بررسی دفتر کل چند‌نوبتی انجام دهد. نمره ۵۲.۳۸٪ در آن نوبت‌ها، یک حد پایین مستقیم برای میزان موفقیت رویکردهای فعلی در مدیریت این سناریو است.

یافته CoT نیز از نظر عملی مفید است: این نشان می‌دهد که هنگام پرامپت‌نویسی برای استدلال یک مدل روی داده‌های مالی در یک محیط چند‌نوبتی، تولید برنامه ساختاریافته ممکن است قابل اعتمادتر از زنجیره افکار آزاد باشد، حداقل برای مدل‌هایی در سطح توانایی GPT-3. مدل‌های توانمندتر ممکن است این معکوس‌شدگی را نشان ندهند — اما این فرضیه‌ای برای آزمایش است، نه فرضی برای پذیرش.

منابع پیشنهادی برای مطالعه بیشتر

پیگیری ConvFinQA APOLLO (arXiv:2212.07249) — با استفاده از نمونه‌برداری منفی آگاه از عدد و یادگیری تقویتی مبتنی بر ثبات، به وضعیت هنر (SOTA) در ConvFinQA دست می‌یابد؛ برای دیدن اینکه چه چیزی شکاف را پس از مقاله اصلی پر کرد، ارزش خواندن دارد.
پرامپت‌نویسی برنامه افکار (arXiv:2211.12737, 2022) — محاسبات حسابی را به جای یک DSL به یک مفسر پایتون واگذار می‌کند؛ حدود ۱۲٪ بهبود نسبت به CoT در وظایف پرسش و پاسخ مالی و عملکردی نزدیک به SOTA در ConvFinQA گزارش کرده است؛ ایده‌های CodeAct را مستقیماً به استدلال مالی متصل می‌کند.
FLARE: تولید تقویت‌شده با بازیابی فعال (arXiv:2305.06983, EMNLP 2023) — در طول تولید به جای یک بار در ابتدا، بازیابی را به صورت درخواستی انجام می‌دهد؛ مستقیماً با تنظیمات چند‌نوبتی مرتبط است، جایی که نیاز مدل به جستجو نوبت به نوبت تغییر می‌کند.

Share on Twitter Follow @beancount_io

ConvFinQA: پرسش و پاسخ مالی چند‌نوبتی و شکاف ۲۱ امتیازی بین مدل‌ها و متخصصان انسانی

مقاله

ایده‌های کلیدی

چه چیزی پابرجا است — و چه چیزی نیست

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

منابع پیشنهادی برای مطالعه بیشتر

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی

مقاله​

ایده‌های کلیدی​

چه چیزی پابرجا است — و چه چیزی نیست​

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد​

منابع پیشنهادی برای مطالعه بیشتر​

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی

مقاله

ایده‌های کلیدی

چه چیزی پابرجا است — و چه چیزی نیست

چرا این موضوع برای هوش مصنوعی مالی اهمیت دارد

منابع پیشنهادی برای مطالعه بیشتر