ConvFinQA: многоходовые финансовые вопросы и ответы и 21-балльный разрыв между моделями и экспертами-людьми
Потратив несколько записей в блоге на одноходовые финансовые QA — FinQA, FinanceBench, TAT-QA — я захотел посмотреть, что происходит, когда пользователи задают уточняющие вопросы. ConvFinQA (Chen et al., EMNLP 2022) — это статья, которая берет сеттинг FinQA и расширяет его до многоходового диалога, и результаты выявляют режим отказа, который одноходовые бенчмарки просто не могут увидеть: модели, которые блестяще справляются с изолированными числовыми рассуждениями, часто терпят неудачу в тот момент, когда вопрос ссылается на что-то, сказанное два хода назад.
О статье
ConvFinQA от Чжию Чэнь, Шиян Ли, Шариз Смайли, Чжицян Ма, Самины Шах и Уильяма Янг Ванга (Калифорнийский университет в Санта-Барбаре и J.P. Morgan) создает датасет из 3 892 многоходовых диалогов, в общей сложности включающий 14 115 вопросов по 2 066 страницам финансовых отчетов. Каждый диалог основан на отчетах о доходах — тех же документах S&P 500, которые использовались в FinQA, — и вопросы связаны в цепочки так, что последующие ходы могут ссылаться на предыдущие ответы. Формат задачи унаследован от FinQA: модели генерируют программу на небольшом проблемно-ориентированном языке (add, subtract, multiply, divide, greater, exp), которая затем выполняется для получения ответа. Оценка использует точность выполнения (соответствует ли выполненный результат эталонному ответу) и точность программы (соответствует ли сгенерированная программа эталонной).
В датасете представлено д ва типа диалогов. Диалоги I типа («простые») разбивают один сложный вопрос FinQA на последовательность подвопросов. Диалоги II типа («гибридные») объединяют декомпозиции двух разных вопросов FinQA по одному и тому же отчету, заставляя модель проводить рассуждения по нескольким аспектам. Более 60% вопросов зависят от предыдущих ходов, а вопросы второй части в гибридных диалогах существенно сложнее, так как модель должна переносить состояние рассуждений между различными финансовыми темами.
Ключевые идеи
- Лучшая дообученная модель (FinQANet с RoBERTa-large): 68,90% точности выполнения на тестовом наборе. Финансовые эксперты-люди достигают 89,44%. Обычные работники краудсорсинга (MTurk): 46,90% — поразительный разрыв, подтверждающий, что задача требует подлинных знаний в предметной области.
- GPT-3 (text-davinci-002, 175B) с 20 примерами (few-shot) и золотыми подтверждающими фактами: 50,30% точности выполнения — значительно ниже специализированной дообученной модели и лишь немногим выше краудсорсинга.
- Промптинг Chain-of-thought (цепочка рассуждений) вредит GPT-3: CoT дает 40,63% против 45,15% при стандартном программном промптинге. Модель имитирует формат рассуждений из данных примеров вместо того, чтобы применять его к актуальному вопросу.
- Гибридные диалоги существенно сложнее: вторая часть гибридного диалога получает оценку 52,38% для FinQANet против 72,37% для простых диалогов. Многоаспектные перекрестные ссылки — это то, на чем современные модели ломаются.
- GPT-3 особенно испытывает трудности с вопросами выбора чисел — отвечая на уточнения типа «а как насчет предыдущего года?», — достигая лишь 35,32%, в то время как FinQANet достигает 82,54%. Разрешение диалоговой анафоры является узким местом.
Что остается актуальным, а что нет
Создание датасета выполнено тщательно, а оценка — корректно. Использование точности программы наряду с точностью выполнения ценно: две программы могут давать один и тот же числовой ответ по разным (возможно, неверным) путям рассуждения, и точность программы это отслеживает. Решение привязать диалоги к реальным отчетам S&P 500 делает задачу обоснованной, а не синтетической.
Тем не менее, разнообразие диалогов ограничено по замыслу. Каждый диалог сконструирован путем декомпозиции существующих вопросов FinQA — здесь нет по-настоящему открытых диалогов, уточняющих ходов или исправлений со стороны пользователя. Реальные бухгалтерские беседы включают все это. Датасет является контролируемым приближением к диалоговым рассуждениям, а не естественной выборкой.
Анализ GPT-3 выглядит устаревшим. На момент публикации (конец 2022 года) результат GPT-3 ниже 50% казался значимым негативным результатом. Но статья предшествует GPT-4, и последующие работы показывают, что более способные модели сокращают большую часть этого разрыва. Вывод о CoT — о том, что промптинг дал обратный эффект — интересен, но может быть специфичен для конкретной модели: CoT, как правило, лучше работает в моделях с более сильным следованием инструкциям.
Оценка также полностью сосредоточена на правильности окончательного ответа и игнорирует качество промежуточной цепочки рассуждений. Это важно, так как модель может сгенерировать числово правильный ответ с помощью неверной программы (что точность программы частично фиксирует) или верную программу с помощью хрупких рассуждений, которые дадут сбой при малейшем перефразировании. FinChain (2025) эксплицитно критикует это, предлагая альтернативу, ориентированную на прозрачность. Для производственных систем знание того, почему модель получила правильный ответ, так же важно, как и знание того, что она его получила.
Почему это важно для ИИ в финансах
Агент Beancount, обрабатывающий запросы пользователей, редко получает один самодостаточны й вопрос. Пользователи спрашивают: «сколько я потратил на продукты в прошлом месяце?», затем «как это соотносится с предыдущим месяцем?» и затем «это больше, чем я заложил в бюджет?». Каждый вопрос строится на предыдущем. ConvFinQA — это ближайший опубликованный бенчмарк к такому паттерну взаимодействия, и его показатели заставляют задуматься: даже с идеальным поиском (gold retrieval) лучшая доступная модель в 2022 году оставила разрыв примерно в 21 процентный пункт по сравнению с результатами экспертов-людей, и этот разрыв увеличивается в многоаспектных вопросах.
Стоит отметить конкретную неудачу в гибридных диалогах. Когда пользователь переходит от вопросов о доходах к вопросам о расходах в рамках одной сессии, модели необходимо сохранять числовой контекст, одновременно переключая тематический фокус. Это именно то, что должен делать агент Beancount во время многоходовой сессии проверки реестра. Оценка 52,38% на таких ходах является прямой нижней границей того, насколько хорошо текущие подходы справляются с этим сценарием.
Вывод о CoT также практически полезен: он предполагает, что при побуждении модели к рассуждениям над финансовыми данными в многоходовом режиме структурированная генерация программ может быть более надежной, чем свободная цепочка рассуждений, по крайней мере для моделей уровня возможностей GPT-3. Более способные модели могут не показывать такую инверсию, но это гипотеза, которую нужно проверить, а не предположение, которое стоит принимать на веру.
Что почитать дальше
- Продолжение ConvFinQA APOLLO (arXiv:2212.07249) — достигает современного уровня (state-of-the-art) на ConvFinQA, используя негативное сэмплирование с учетом чисел и обучение с подкреплением на основе последовательности; стоит прочитать, чтобы увидеть, что сократило разрыв после оригинальной статьи.
- Program of Thoughts Prompting (arXiv:2211.12737, 2022) — перекладывает арифметику на интерпретатор Python, а не на DSL; сообщается об улучшении примерно на 12% по сравнению с CoT в задачах финансового QA и результатах, близких к SoTA на ConvFinQA; связывает идеи CodeAct напрямую с финансовыми рассуждениями.
- FLARE: Active Retrieval Augmented Generation (arXiv:2305.06983, EMNLP 2023) — выполняет поиск по запросу во время генерации, а не один раз в начале; имеет прямое отношение к многоходовому сеттингу, где то, что модели нужно найти, меняется от хода к ходу.
