Prejsť na hlavný obsah

FinQA: Benchmark na meranie numerického uvažovania AI vo finančných správach

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

FinanceBench minulý týždeň ukázal, že vyhľadávanie nie je tou náročnou časťou finančných QA — je ním numerické uvažovanie. FinQA, publikovaný na EMNLP 2021, je príspevok, ktorý stanovil dôvod prečo. Čítam ho teraz, pretože ide o základný benchmark pre finančnú aritmetiku; každá následná práca v tejto oblasti ho buď rozširuje, alebo sa voči nemu porovnáva, a pochopenie toho, kde jeho modely zlyhávajú, vysvetľuje, kde zlyhajú aj súčasní agenti Beancount.

Príspevok

2026-05-13-finqa-numerical-reasoning-financial-data

Zhiyu Chen, Wenhu Chen a kolegovia z UC Santa Barbara, J.P. Morgan a Amazonu predstavili FinQA: A Dataset of Numerical Reasoning over Financial Data (FinQA: Dataset numerického uvažovania nad finančnými údajmi; arXiv:2109.00122, EMNLP 2021). Hlavná úloha: na základe výkazu ziskov a strát obsahujúceho textový opis aj jednu alebo viac finančných tabuliek odpovedať na otázku, ktorá si vyžaduje viacstupňovú aritmetiku nad faktami čerpanými z oboch modalít. Odpoveď musí byť odvodená prostredníctvom explicitného numerického programu — sekvencie až piatich operácií (sčítanie, odčítanie, násobenie, delenie, porovnávanie, agregácia tabuliek a niekoľko ďalších) aplikovaných na extrahované hodnoty.

Jedenásť finančných profesionálov so sídlom v USA (držitelia certifikátov CPA, titulov MBA) vytvorilo dataset ručne z 2 789 strán výkazov ziskov a strát spoločností z indexu S&P 500 z rokov 1999–2019. Finálny dataset obsahuje 8 281 anotovaných párov otázok a odpovedí, pričom každý z nich má zlaté podkladové fakty a úplný program uvažovania, vďaka čomu je plne vykonateľný a auditovateľný.

Kľúčové myšlienky

  • Rozdiel v čase vydania je brutálny. FinQANet (RoBERTa-large), najlepší neurónový model, ktorý autori dokázali nasadiť, dosiahol 61,24 % presnosť vykonania a 58,86 % presnosť programu na testovacom súbore. Ľudskí finanční experti dosiahli 91,16 % a 87,49 %. Nešpecializovaní pracovníci (crowd workers) dosiahli len 50,68 % — čo je len o niečo viac ako neurónový základ, čo hovorí o tom, že doména si vyžaduje skutočnú odbornosť, nielen porozumenie textu.
  • Viacstupňové uvažovanie je bodom, kde sa všetko láme. Pri programoch vyžadujúcich tri alebo viac krokov uvažovania klesá presnosť FinQANet na 22,78 %. Model dokáže primerane zvládnuť dvojstupňovú aritmetiku; čokoľvek dlhšie vedie ku kumulovaniu chýb.
  • Otázky naprieč modalitami sú zložitým prípadom. Otázky, ktorých dôkazy siahajú do tabuľky aj do textu, vykazujú presnosť 43,80 %, čo je približne 17 bodov pod celkovým priemerom. Priradenie čísla z tabuľkového odseku ku kvalifikátoru v texte nie je niečo, čo by štandardné predtrénované modely robili dobre.
  • Doménové konštanty sú tichým zabijakom. Keď krok programu vyžaduje konštantu, ktorá je finančnou konvenciou (napr. že milión má 1 000 tisícov, alebo že bázický bod je 0,01 %), a nie niečím uvedeným v dokumente, presnosť klesá na 43,88 %. Model nedokáže spoľahlivo rozlíšiť „toto číslo je v dokumente“ od „toto číslo je všeobecná znalosť“.
  • ~50 % chýb pramení z medzier v doménových znalostiach, nie zo zlyhaní vyhľadávania alebo chýb v aritmetickom výpočte. Model našiel správne fakty, ale aplikoval nesprávnu finančnú logiku.
  • Neskoršie LLM tento rozdiel podstatne zmenšujú, ale neodstraňujú ho. GPT-4 má hlásenú presnosť vykonania na FinQA približne 76 % a systémy SOTA špecifické pre danú úlohu dosiahli do roku 2024 približne 89 % — stále pod úrovňou ľudských expertov.

Čo obstojí — a čo nie

Dizajn benchmarku je solídny. Použitie vykonateľných programov namiesto odpovedí vo voľnom texte je správnym rozhodnutím: model môžete hodnotiť jednoznačne a získate vhľad do toho, ako uvažoval, nielen či mal pravdu. Rozhodnutie vyžadovať dôkazy z tabuľky aj textu odráža finančnú analýzu v reálnom svete, kde vám tabuľka povie číslo a poznámka pod čiarou vysvetlí, čo to číslo znamená.

Napriek tomu je úloha užšia, než sa zdá. Preddefinovaný DSL operácií pokrýva štandardnú finančnú aritmetiku, ale nedokáže reprezentovať rozhodnutie o kategorizácii („je tento výdavok opakujúci sa alebo jednorazový?“), kontrolu súladu s pravidlami („je tento peňažný tok v súlade s našou rozpočtovou politikou?“) alebo čokoľvek, čo si vyžaduje externé získavanie trhových údajov alebo účtovných štandardov. Programy sú správne a vysvetliteľné, ale existujú vo svete, kde jedinou neistotou je aritmetika, nie úsudok.

Nastavenie vyhľadávania tiež poskytuje modelu zlaté podkladové fakty počas tréningu, čo vylepšuje výsledky. V reálnom nasadení by ste museli vyhľadať správne bunky tabuľky z dlhého dokumentu skôr, než by ste mohli vykonať program — a tento krok vyhľadávania nie je triviálny, ako minulý týždeň ukázal FinanceBench.

Napokon, výsledky z roku 2021 podhodnocujú súčasné schopnosti modelov. Základná úroveň ~61 % bola pred érou ChatGPT. Číslo ~76 % pre GPT-4 a ~89 % pre SOTA pochádzajú zo špecializovaných reťazcov, ktoré kombinujú reťazec myšlienok (chain-of-thought), vykonávanie kódu a jemné ladenie. Rozdiel voči ľudskému expertovi (91 %+) sa zmenšil, ale pretrváva.

Prečo je to dôležité pre finančnú AI

Hlavné knihy Beancount sú v podstate zjednodušené výkazy ziskov a strát: štruktúrované riadky debetov a kreditov s textovými metadátami v poznámkach k transakciám, poliach príjemcov a hierarchiách účtov. Každá zručnosť, ktorú benchmark FinQA testuje, sa priamo mapuje na niečo, čo musí agent Beancount vykonávať.

Chybový režim naprieč modalitami je obzvlášť dôležitý. V kontexte Beancount môže agent vidieť sumu transakcie v hlavnej knihe, kurz cudzej meny v direktíve ceny a komentár v poli poznámky — a na výpočet správnej hodnoty v mene vykazovania potrebuje všetky tri údaje. Modely, ktoré FinQA testoval v roku 2021, nedokázali tieto zdroje spoľahlivo krížovo porovnávať. Súčasné LLM sú na tom lepšie, ale 22,78 % presnosť pri programoch s 3 a viac krokmi je varovaním: dĺžka reťazca je skutočnou osou zlyhania a úlohy viacstupňového odsúhlasovania účtov na ňu narazia.

Problém doménových konštánt sa tiež zovšeobecňuje. Účtovníctvo má svoje vlastné konvencie — invarianty podvojného účtovníctva, sémantiku typov účtov, hranice fiškálnych rokov — ktoré model musí poznať bez toho, aby mu boli povedané. Analýza chýb FinQA, ktorá ukazuje ~50 % zlyhaní kvôli doménovým znalostiam, naznačuje, že agent Beancount potrebuje buď jemné ladenie na účtovné konvencie, alebo explicitnú vrstvu vyhľadávania účtovných pravidiel, nielen záznamov v hlavnej knihe.

Reprezentácia programu v benchmarku, hoci obmedzená, tiež naznačuje, ako by mali agenti Beancount vyjadrovať svoje uvažovanie: nie prirodzeným jazykom, ktorý by mohol byť nejasný, ale vykonateľnými operáciami, ktoré možno skontrolovať, vrátiť späť alebo auditovať.

Čo si prečítať ďalej

  • TAT-QA (arXiv:2105.07624, ACL 2021) — rozširuje hybridné nastavenie tabuľka+text na 16 552 otázok s bohatšou škálou typov uvažovania; model TAGOP, ktorý zavádza, stojí za preštudovanie kvôli tomu, ako spracováva extrakciu rozsahov z oboch modalít spoločne.
  • ConvFinQA (arXiv:2210.03849, EMNLP 2022) — konverzačné rozšírenie FinQA, kde každý dialóg má numerické závislosti naprieč jednotlivými vstupmi; viacúrovňová štruktúra sa priamo mapuje na interaktívneho asistenta Beancount, ktorý musí sledovať priebežné výpočty v rámci doplňujúcich otázok používateľa.
  • MultiHiertt (arXiv:2206.01347, ACL 2022) — posúva nastavenie na finančné správy s viacerými hierarchickými tabuľkami na dokument; nevyhnutný krok smerom ku konsolidovaným závierkam a viacročným pohľadom na hlavnú knihu, ktorým budú agenti Beancount čeliť.