Перейти до основного вмісту

ConvFinQA: багатокрокові фінансові запитання та відповіді та 21-пунктовий розрив між моделями та експертами-людьми

· 6 хв. читання
Mike Thrift
Mike Thrift
Marketing Manager

Провівши кілька записів над однократними фінансовими запитаннями та відповідями — FinQA, FinanceBench, TAT-QA — я захотів поглянути, що відбувається, коли користувачі ставлять уточнюючі запитання. ConvFinQA (Chen et al., EMNLP 2022) — це стаття, яка бере середовище FinQA і розширює його до багатокрокового діалогу, а результати виявляють режим відмови, який однократні тести просто не можуть побачити: моделі, які блискуче справляються з ізольованими числовими міркуваннями, часто зазнають краху в той момент, коли запитання посилається на щось, сказане два кроки тому.

Про статтю

2026-05-15-convfinqa-chain-numerical-reasoning-conversational-finance-qa

ConvFinQA від Чжію Ченя, Шіяна Лі, Чаріз Смайлі, Чжіцяна Ма, Саміни Шах та Вільяма Янга Ванга (Каліфорнійський університет у Санта-Барбарі та J.P. Morgan) будує набір даних із 3 892 багатокрокових діалогів, що охоплюють 14 115 запитань на 2 066 сторінках фінансових звітів. Кожна розмова базується на звітах про прибутки — тих самих документах S&P 500, що використовувалися у FinQA — і запитання пов'язані в ланцюжок так, що наступні кроки можуть посилатися на попередні відповіді. Формат завдання успадкований від FinQA: моделі генерують програму на невеликій проблемно-орієнтованій мові (додавання, віднімання, множення, ділення, порівняння, експонента), яка потім виконується для отримання відповіді. Оцінювання використовує точність виконання (чи збігається результат виконання з еталонною відповіддю) та точність програми (чи збігається згенерована програма з еталонною).

Набір даних містить два типи розмов. Тип I «прості» розмови розкладають одне складне питання FinQA на послідовність підпитань. Тип II «гібридні» розмови поєднують розклади двох різних питань FinQA про один і той самий звіт, змушуючи до багатоаспектних міркувань. Понад 60% запитань мають залежність від попередніх кроків, а запитання другої частини в гібридних розмовах значно складніші, оскільки модель повинна переносити стан міркувань між різними фінансовими темами.

Ключові ідеї

  • Найкраща донавчена модель (FinQANet з RoBERTa-large): 68,90% точності виконання на тестовому наборі. Люди-фінансові експерти досягають 89,44%. Пересічні працівники (MTurk): 46,90% — разючий розрив, який підтверджує, що завдання вимагає справжніх знань у предметній галузі.
  • GPT-3 (text-davinci-002, 175B) з 20 прикладами (few-shot) та еталонними допоміжними фактами: 50,30% точності виконання — значно нижче, ніж у донавченого спеціаліста, і ледь вище за пересічних людей.
  • Метод спонукання «ланцюжок думок» (Chain-of-thought) шкодить GPT-3: CoT дає 40,63% проти 45,15% для стандартного спонукання через програму. Модель імітує формат міркувань з наведених прикладів замість того, щоб застосовувати його до реального запитання.
  • Гібридні розмови значно складніші: друга частина гібридної розмови отримує 52,38% для FinQANet проти 72,37% для простих розмов. Багатоаспектні перехресні посилання — це те, де сучасні моделі зазнають невдачі.
  • GPT-3 особливо складно даються питання вибору чисел — відповіді на уточнення на кшталт «а як щодо попереднього року?» — досягаючи лише 35,32%, тоді як FinQANet досягає 82,54%. Розв'язання діалогової анафори є вузьким місцем.

Що підтверджується, а що ні

Побудова набору даних ретельна, а оцінювання чисте. Використання точності програми поряд із точністю виконання є цінним: дві програми можуть видати однаковий числовий результат за допомогою різних (можливо, хибних) шляхів міркування, і точність програми це фіксує. Рішення прив'язати розмови до реальних звітів S&P 500 робить завдання приземленим, а не синтетичним.

З іншого боку, різноманітність розмов обмежена задумом. Кожна розмова побудована шляхом розкладання існуючих запитань FinQA — тут немає справжніх відкритих діалогів, уточнюючих реплік чи виправлень з боку користувача. Реальні бухгалтерські розмови включають усе це. Набір даних є контрольованою апроксимацією діалогових міркувань, а не натуралістичною вибіркою.

Аналіз GPT-3 виглядає дещо застарілим. На момент публікації (кінець 2022 року) той факт, що GPT-3 не досягала навіть 50%, здавався значущим негативним результатом. Але стаття передує GPT-4, і подальші роботи показують, що потужніші моделі значно скорочують цей розрив. Висновок щодо CoT — що метод спонукання спрацював проти моделі — цікавий, але може бути специфічним для конкретної моделі: CoT, як правило, краще працює в моделях з сильнішим слідуванням інструкціям.

Оцінювання також зосереджено виключно на правильності кінцевої відповіді та ігнорує якість проміжних ланцюжків міркувань. Це важливо, оскільки модель може згенерувати чисельно правильну відповідь через неправильну програму (що точність програми частково фіксує) або правильну програму через крихкі міркування, які не витримали б незначного перефразування. FinChain (2025) прямо критикує це, пропонуючи альтернативу, орієнтовану на прозорість. Для виробничих систем знання того, чому модель отримала правильну відповідь, так само важливе, як і знання того, що вона її отримала.

Чому це важливо для фінансового ШІ

Агент Beancount, який обробляє запити користувачів, рідко отримує одне самостійне запитання. Користувачі запитують «скільки я витратив на продукти минулого місяця?», потім «як це порівнюється з позаминулим місяцем?» і далі «чи це більше, ніж я заклав у бюджет?». Кожне запитання будується на попередньому. ConvFinQA — це найближчий до такого патерну взаємодії опублікований тест, і його цифри протверезні: навіть з еталонним пошуком фактів, найкраща доступна модель у 2022 році мала розрив у ~21 відсотковий пункт порівняно з експертами-людьми, і цей розрив збільшується на багатоаспектних запитаннях.

Специфічна невдача у гібридних розмовах заслуговує на увагу. Коли користувач переходить від запитань про доходи до запитань про витрати в межах однієї сесії, модель повинна зберігати числовий контекст, одночасно змінюючи тематичний фокус. Це саме те, що має робити агент Beancount під час багатокрокової сесії перегляду бухгалтерської книги. Показник 52,38% на таких кроках є прямою нижньою межею того, наскільки добре сучасні підходи справляються з таким сценарієм.

Висновки щодо CoT також практично корисні: вони припускають, що при спонуканні моделі до міркувань над фінансовими даними в багатокроковому середовищі, структурована генерація програм може бути надійнішою за вільний ланцюжок думок, принаймні для моделей рівня GPT-3. Потужніші моделі можуть не демонструвати таку інверсію — але це гіпотеза, яку слід перевірити, а не припущення, на яке варто покладатися.

Що читати далі

  • Продовження ConvFinQA APOLLO (arXiv:2212.07249) — досягає найкращих результатів на ConvFinQA за допомогою негативної вибірки з урахуванням чисел та навчання з підкріпленням на основі узгодженості; варто прочитати, щоб побачити, що скоротило розрив після оригінальної статті.
  • Program of Thoughts Prompting (arXiv:2211.12737, 2022) — перекладає арифметику на інтерпретатор Python замість DSL; повідомляється про ~12% покращення порівняно з CoT у фінансових завданнях QA та результати, близькі до найкращих на ConvFinQA; безпосередньо пов'язує ідеї CodeAct із фінансовими міркуваннями.
  • FLARE: Active Retrieval Augmented Generation (arXiv:2305.06983, EMNLP 2023) — здійснює пошук на вимогу під час генерації, а не один раз на початку; безпосередньо релевантно для багатокрокового середовища, де те, що моделі потрібно знайти, змінюється крок за кроком.