ConvFinQA: Многократни финансови въпроси и отговори и 21-точковата разлика между моделите и човешките експерти
След като посветих няколко записа на еднократните финансови въпроси и отговори — FinQA, FinanceBench, TAT-QA — реших да разгледам какво се случва, когато потребителите задават последващи въпроси. ConvFinQA (Chen et al., EMNLP 2022) е публикацията, която взема настройките на FinQA и ги разширява в многократен диалог, а резултатите разкриват режим на отказ, който еднократните бенчмаркове просто не могат да видят: моделите, които се справят отлично с изолирани числови разсъждения, често се сриват в момента, в който въпросът препраща към нещо, казано преди две стъпки.
Изследването
ConvFinQA, от Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah и William Yang Wang (UC Santa Barbara и J.P. Morgan), изгражда набор от данни от 3892 многократни диалога, общо 14 115 въпроса върху 2066 страници от финансови отчети. Всеки разговор е базиран на отчети за приходите — същите документи от S&P 500, използвани във FinQA — и въпросите са свързани така, че по-късните стъпки могат да препращат към по-ранни отговори. Форматът на задачата е наследен от FinQA: моделите генерират програма на малък специфичен за домейна език (събиране, изваждане, умножение, деление, по-голямо, експонента), която след това се изпълнява, за да се получи отговорът. Оценката използва точност на изпълнение (дали изпълненият резултат съвпада с истинския отговор) и точност на програмата (дали генерираната програма съвпада с истинската програма).
Наборът от данни съдържа два типа разговор и. Тип I "прости" разговори разлагат един сложен въпрос от FinQA в последователност от подвъпроси. Тип II "хибридни" разговори обединяват разлагания на два различни въпроса от FinQA за един и същ отчет, налагайки разсъждения в различни аспекти. Над 60% от въпросите зависят от предходни стъпки, а въпросите от втората част в хибридните разговори са значително по-трудни, защото моделът трябва да пренася състоянието на разсъждение през различни финансови теми.
Ключови идеи
- Най-добрият фино настроен модел (FinQANet с RoBERTa-large): 68,90% точност на изпълнение върху тестовия набор. Човешките финансови експерти достигат 89,44%. Обикновените работници (MTurk): 46,90% — поразителна разлика, която потвърждава, че задачата изисква истински познания в областта.
- GPT-3 (text-davinci-002, 175B) с 20 примера (few-shot) и златни подкрепящи факти: 50,30% точност на изпълнение — доста под фино настроения специалист и едва над обикновените хора.
- Chain-of-thought подтикването вреди на GPT-3: CoT дава 40,63% срещу 45,15% за стандартно подтикване чрез програма. Моделът имитира формата на разсъждение на дадените примери, вместо да го прилага към действителния въпрос.
- Хибридните разговори са значително по-трудни: втората част на хибриден разговор постига 52,38% за FinQANet срещу 72,37% за простите разговори. Препратките между различни аспекти са мястото, където текущите модели се провалят.
- GPT-3 конкретно се затруднява с въпроси за избор на числа — отговаряйки на последващ въпрос като "какво ще кажете за предходната година?" — постигайки само 35,32%, докато FinQANet достига 82,54%. Разрешаването на анафора в диалог е тесното място.
Какво остава вярно — и какво не
Конструкцията на набора от данни е внимателна и оценката е чиста. Използването на точност на програмата заедно с точността на изпълнение е ценно: две програми могат да произведат един и същ числов отговор чрез различни (възможно грешни) пътища на разсъждение, а точността на програмата улавя това. Решението разговорите да бъдат закотвени в реални документи от S&P 500 поддържа задачата реалистична, а не синтетична.
Въпреки това, разнообразието на разговорите е ограничено по дизайн. Всеки разговор е конструиран чрез разлагане на съществуващи въпроси от FinQA — няма истински отворени диалози, няма стъпки за изясняване, няма потребителски корекции. Реалните счетоводни разговори включват всичко това. Наборът от данни е контролирана апроксимация на диалогово разсъждение, а не натуралистична извадка.
Анализът на GPT-3 е остарял по особен начин. Към момента на публикуване (края на 2022 г.), фактът, че GPT-3 е под 50%, изглеждаше като значим отрицателен резултат. Но публикацията предхожда GPT-4 и последващата работа показва, че по-способните модели запълват голяма част от празнината. Находката за CoT — че подтикването е дало обратен ефект — е интересна, но може да е специфична за модела: CoT обикновено работи по-добре в модели с по-силно следване на инструкции.
Оценката също така се фокусира изцяло върху коректността на крайния отговор и игнорира качеството на междинната верига от разсъждения. Това е важно, защото моделът може да генерира числово правилен отговор чрез грешна програма (което точността на програмата частично улавя) или правилна програма чрез нестабилни разсъждения, които биха се провалили при леко перифразиране. FinChain (2025) изрично критикува това, мотивирайки алтернатива, фокусирана върху прозрачността. За производствени системи е толкова важно да се знае защо моделът е получил правилния отговор, колкото и че го е направил.
Защо това е важно за финансовия ИИ
Един Beancount агент, отговарящ на потребителски заявки, рядко получава един-единствен самодостатъчен въпрос. Потребителите питат „колко похарчих за хранителни стоки миналия месец?“, след това „как се сравнява това с предходния месец?“ и след това „това повече ли е от планираното в бюджета?“. Всеки въпрос се гради върху предходния. ConvFinQA е най-близкият публикуван бенчмарк до този модел на взаимодействие и неговите цифри са изтрезвяващи: дори с идеално извличане на информация, най-добрият наличен модел през 2022 г. остави ~21 процентни пункта разлика спрямо представянето на човешки експерт, като разликата се увеличава при въпроси с множество аспекти.
Специфичният провал при хибридните разговори заслужава внимание. Когато потребителят премине от въпроси за приходите към въпроси за разходите в същата сесия, моделът трябва да пренесе числовия контекст, като същевременно нулира тематичния фокус. Това е точно това, което един Beancount агент трябва да прави по време на многократна сесия за преглед на счетоводната книга. Резултатът от 52,38% при тези стъпки е директна долна граница на това колко добре настоящите подходи се справят с този сценарий.
Констатацията за CoT също е практически полезна: тя предполага, че при подтикване на модел да разсъждава върху финансови данни в многократен диалог, структурираното генериране на програми може да бъде по-надеждно от свободната верига от разсъждения (CoT), поне за модели на нивото на GPT-3. По-способните модели може да не показват тази инверсия — но това е хипотеза, която трябва да се тества, а не предположение, което да се приема на доверие.
Какво да прочетете след това
- ConvFinQA APOLLO follow-up (arXiv:2212.07249) — постига най-съвременни резултати (state-of-the-art) върху ConvFinQA, използвайки негативно вземане на проби с отчитане на числата и обучение чрез подсилване, базирано на последователност; заслужава си да се прочете, за да се види какво е запълнило празнината след оригиналната публикация.
- Program of Thoughts Prompting (arXiv:2211.12737, 2022) — прехвърля аритметиката към Python интерпретатор вместо към DSL; съобщава за ~12% подобрение спрямо CoT при финансови задачи за въпроси и отговори и резултати близо до SoTA върху ConvFinQA; свързва идеите на CodeAct директно с финансовите разсъждения.
- FLARE: Active Retrieval Augmented Generation (arXiv:2305.06983, EMNLP 2023) — извлича информация при поискване по време на генерирането, вместо само веднъж в началото; директно приложимо към многократни диалози, където нуждите на модела от справка се променят с всяка стъпка.
