Prejsť na hlavný obsah

ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Po niekoľkých príspevkoch o jednorazovom finančnom QA — FinQA, FinanceBench, TAT-QA — som sa chcel pozrieť na to, čo sa stane, keď používatelia kladú doplňujúce otázky. ConvFinQA (Chen et al., EMNLP 2022) je štúdia, ktorá preberá prostredie FinQA a rozširuje ho do viackolovej konverzácie. Výsledky odhaľujú režim zlyhania, ktorý jednorazové benchmarky jednoducho nedokážu zachytiť: modely, ktoré excelujú v izolovanom numerickom uvažovaní, sa často zrútia v momente, keď otázka odkazuje na niečo povedané pred dvoma kolami.

Štúdia

2026-05-15-convfinqa-chain-numerical-reasoning-conversational-finance-qa

ConvFinQA od Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah a Williama Yang Wanga (UC Santa Barbara a J.P. Morgan) buduje dataset 3 892 viackolových konverzácií s celkovým počtom 14 115 otázok nad 2 066 stránkami finančných správ. Každá konverzácia je podložená správami o výnosoch — rovnakými podaniami pre S&P 500, aké boli použité vo FinQA — a otázky sú reťazené tak, aby neskoršie kolá mohli odkazovať na predchádzajúce odpovede. Formát úlohy je prevzatý z FinQA: modely generujú program v malom doménovo špecifickom jazyku (sčítať, odčítať, násobiť, deliť, väčší ako, exp), ktorý sa následne vykoná, aby vygeneroval odpoveď. Hodnotenie využíva presnosť vykonania (či sa vykonaný výsledok zhoduje so správnou odpoveďou) a presnosť programu (či sa vygenerovaný program zhoduje so vzorovým programom).

Dataset obsahuje dva typy konverzácií. Typ I „jednoduché“ konverzácie rozkladajú jednu komplexnú otázku z FinQA na sekvenciu podotázok. Typ II „hybridné“ konverzácie spájajú rozklady dvoch rôznych otázok z FinQA o tej istej správe, čo si vyžaduje uvažovanie naprieč rôznymi aspektmi. Viac ako 60 % otázok má závislosti na predchádzajúcich kolách a otázky v druhej časti hybridných konverzácií sú podstatne náročnejšie, pretože model musí prenášať stav uvažovania medzi rôznymi finančnými témami.

Kľúčové myšlienky

  • Najlepší doladený model (FinQANet s RoBERTa-large): 68,90 % presnosť vykonania na testovacom súbore. Ľudskí finanční experti dosahujú 89,44 %. Bežní pracovníci (MTurk): 46,90 % — markantný rozdiel, ktorý potvrdzuje, že úloha si vyžaduje skutočné doménové znalosti.
  • GPT-3 (text-davinci-002, 175B) s 20 príkladmi (few-shot) a správnymi podkladovými faktami: 50,30 % presnosť vykonania — hlboko pod doladeným špecialistom a len tesne nad laikmi.
  • Chain-of-thought prompting GPT-3 škodí: CoT prináša 40,63 % oproti 45,15 % pri štandardnom programovom promptingu. Model skôr napodobňuje formát uvažovania daných príkladov namiesto toho, aby ho aplikoval na skutočnú otázku.
  • Hybridné konverzácie sú podstatne ťažšie: druhá časť hybridnej konverzácie dosahuje skóre 52,38 % pre FinQANet oproti 72,37 % pri jednoduchých konverzáciách. Kros-aspektové odkazovanie je bodom, kde súčasné modely zlyhávajú.
  • GPT-3 konkrétne bojuje s otázkami na výber čísel — pri odpovediach na doplňujúce otázky typu „a čo predchádzajúci rok?“ — kde dosahuje iba 35,32 %, zatiaľ čo FinQANet dosahuje 82,54 %. Úzkym hrdlom je konverzačné rozlíšenie anafor.

Čo zostáva relevantné – a čo nie

Konštrukcia datasetu je precízna a hodnotenie je čisté. Použitie presnosti programu popri presnosti vykonania je cenné: dva programy môžu vyprodukovať rovnakú číselnú odpoveď rôznymi (možno nesprávnymi) cestami uvažovania a presnosť programu to dokáže zachytiť. Rozhodnutie ukotviť konverzácie v reálnych podaniach pre S&P 500 udržiava úlohu v realite a nie v syntetickej rovine.

Napriek tomu je variabilita konverzácií dizajnovo obmedzená. Každá konverzácia je vytvorená rozkladom existujúcich otázok FinQA — neexistujú tu žiadne skutočne otvorené dialógy, žiadne kolá na objasnenie, žiadne opravy zo strany používateľa. Skutočné účtovné konverzácie zahŕňajú toto všetko. Dataset je kontrolovanou aproximáciou konverzačného uvažovania, nie naturalistickou vzorkou.

Analýza GPT-3 časom zostarla. V čase publikácie (koniec roka 2022) sa GPT-3 s výkonom pod 50 % javila ako významný negatívny výsledok. Štúdia však predchádza GPT-4 a následné práce ukazujú, že schopnejšie modely tento rozdiel do veľkej miery sťahujú. Zistenie o CoT — že prompting mal opačný efekt — je zaujímavé, ale môže byť špecifické pre daný model: CoT má tendenciu fungovať lepšie v modeloch so silnejším nasledovaním inštrukcií.

Hodnotenie sa tiež zameriava výhradne na správnosť konečnej odpovede a ignoruje kvalitu medziľahlých reťazcov uvažovania. Je to dôležité, pretože model môže vygenerovať numericky správnu odpoveď cez nesprávny program (čo čiastočne zachytáva presnosť programu) alebo správny program cez krehké uvažovanie, ktoré by pri miernom parafrázovaní zlyhalo. FinChain (2025) to explicitne kritizuje a motivuje k alternatíve zameranej na transparentnosť. Pre produkčné systémy je vedomosť o tom, prečo model dospel k správnej odpovedi, rovnako dôležitá ako vedomosť, že sa tak stalo.

Prečo je to dôležité pre finančnú AI

Agent pre Beancount, ktorý spracováva dopyty používateľov, zriedkakedy dostane jednu samostatnú otázku. Používatelia sa pýtajú: „koľko som minul na potraviny minulý mesiac?“, potom „ako sa to porovnáva s mesiacom predtým?“ a potom „je to viac, ako som si naplánoval v rozpočte?“. Každá otázka stavia na tej predchádzajúcej. ConvFinQA je najbližší publikovaný benchmark k tomuto vzoru interakcie a jeho čísla sú vytriezvením: aj pri bezchybnom vyhľadávaní faktov nechal najlepší dostupný model v roku 2022 približne 21-percentuálny rozdiel oproti výkonu ľudského experta, pričom pri multiaspektových otázkach sa tento rozdiel ešte zväčšuje.

Konkrétne zlyhanie pri hybridných konverzáciách stojí za pozornosť. Keď používateľ v rámci jednej relácie prejde od otázok o výnosoch k otázkam o nákladoch, model musí preniesť numerický kontext a zároveň resetovať tematické zameranie. To je presne to, čo musí robiť agent pre Beancount počas viackolového prezerania účtovnej knihy. Skóre 52,38 % v týchto kolách je priamou dolnou hranicou toho, ako dobre súčasné prístupy zvládajú tento scenár.

Zistenie o CoT je tiež prakticky užitočné: naznačuje, že pri promptovaní modelu na uvažovanie nad finančnými dátami vo viackolovom prostredí môže byť generovanie štruktúrovaného programu spoľahlivejšie než voľný chain-of-thought, aspoň pre modely na úrovni schopností GPT-3. Schopnejšie modely túto inverziu nemusia vykazovať — ale je to hypotéza, ktorú treba otestovať, nie predpoklad, na ktorý sa možno spoliehať.

Čo si prečítať ďalej

  • Nadväzujúca štúdia ConvFinQA APOLLO (arXiv:2212.07249) — dosahuje špičkové výsledky na ConvFinQA pomocou negatívneho vzorkovania citlivého na čísla a sprítomneného učenia založeného na konzistencii; stojí za prečítanie, ak chcete vidieť, čo stiahlo rozdiel po pôvodnej štúdii.
  • Program of Thoughts Prompting (arXiv:2211.12737, 2022) — presúva aritmetiku na interpret Pythonu namiesto DSL; uvádza približne 12 % zlepšenie oproti CoT pri finančných QA úlohách a výsledky blízke špičke na ConvFinQA; priamo spája myšlienky CodeAct s finančným uvažovaním.
  • FLARE: Active Retrieval Augmented Generation (arXiv:2305.06983, EMNLP 2023) — vykonáva vyhľadávanie na vyžiadanie počas generovania namiesto jednorazového vyhľadávania na začiatku; priamo relevantné pre viackolové prostredie, kde sa potreby vyhľadávania menia s každým kolom.