Prejsť na hlavný obsah

FinBen: Benchmarking LLMs v 36 finančných úlohách — Dôsledky pre AI v účtovníctve

· 5 minút čítania
Tian Pan
Research Engineer

FinBen sa objavil na NeurIPS 2024 ako doteraz najkomplexnejšie verejné hodnotenie LLM vo finančných úlohách. Chcel som si ho pozorne prečítať, pretože pred navrhovaním akéhokoľvek autonómneho agenta nad Beancount účtovnými knihami potrebujem realistický obraz o tom, kde sa súčasné modely skutočne nachádzajú v úlohách finančného uvažovania, ktoré by takýto agent musel vykonávať.

Príspevok

2026-04-15-finben-financial-llm-benchmark

Qianqian Xie a 33 spoluautorov predstavujú FinBen, open-source benchmark pokrývajúci 36 datasetov v 24 finančných úlohách, rozdelených do siedmich dimenzií: extrakcia informácií, textová analýza, odpovedanie na otázky, generovanie textu, riadenie rizík, prognózovanie a rozhodovanie. Hodnotia 15 reprezentatívnych LLM — vrátane GPT-4, ChatGPT, Gemini a niekoľkých open-source modelov vyladených inštrukciami — a zavádzajú tri nové datasety pre sumarizáciu, QA a hodnotenie obchodovania s akciami.

Hlavnou motiváciou je, že predchádzajúce finančné benchmarky ako FLUE a FLARE zachytili len časť finančného NLP, ale ani zďaleka nie celý proces. FinBen je prvým pokusom obsiahnuť celý rámec na jednom mieste a bol prijatý do sekcie Datasets and Benchmarks na NeurIPS 2024, čo mu dodáva patričný punc metodologickej dôkladnosti.

Kľúčové myšlienky

  • V oblasti rozpoznávania pomenovaných entít dosahuje GPT-4 skóre 0,83 Entity F1 na datasete FINER-ORD — je to silný výsledok, ale ide o najjednoduchšiu kategóriu v rámci benchmarku.
  • V rámci FinQA (numerické uvažovanie nad finančnými správami) dosahuje GPT-4 0,63 Exact Match; v konverzačnom variante ConvFinQA dosahuje 0,76. Tieto výsledky sú úctyhodné, ale zďaleka nie vyriešené.
  • Doménovo vyladený model FinMA 7B dosahuje 0,88 F1 v sentimente FPB — v tejto úzko zameranej úlohe prekonáva GPT-4, čo potvrdzuje, že jemné doladenie (fine-tuning) má stále zmysel pri jasne definovanej klasifikácii.
  • Predpovedanie pohybu akcií je najjasnejším bodom zlyhania: dokonca aj GPT-4 dosahuje presnosť približne 0,54 — čo je len tesne nad úrovňou náhody. Autori to nazývajú „významným nedostatkom v schopnosti LLM riešiť prognózovanie“.
  • GPT-4 dosahuje Sharpe Ratio 1,51 v obchodnej úlohe oproti 1,03 pri Gemini a kumulatívny výnos 28,19 % v porovnaní s výnosom stratégie buy-and-hold -4,00 % počas hodnotiaceho obdobia — ide však o krátky backtest so všetkými obvyklými výhradami.
  • Všetky modely získali nulu v extraktívnej sumarizácii a GPT-4 dosiahol 0,01 F1 v extrakcii vzťahov. Schopnosti prudko klesajú mimo komfortnej zóny textovej klasifikácie a generovania s otvoreným koncom.

Čo obstojí — a čo nie

Benchmark je skutočne užitočný ako prieskumný nástroj. Rozsah úloh je širší než u čohokoľvek, čo tu bolo predtým, a open-source vydanie znamená, že ostatní môžu stavať na infraštruktúre hodnotenia namiesto toho, aby začínali od nuly.

Napriek tomu mám reálne pochybnosti o tom, čo nám FinBen v skutočnosti hovorí. Obdobie hodnotenia obchodovania je krátke a špecifické pre daný trh; Sharpe Ratio vypočítané za niekoľko mesiacov na amerických akciách nie je stabilným signálom. Nulové skóre v extraktívnej sumarizácii nám hovorí, že niečo nefunguje, ale článok nediagnostikuje prečo — ide o problém s formátom promptu, artefakt tokenizácie alebo skutočné zlyhanie uvažovania? Tento rozdiel je dôležitý pre každého, kto sa to snaží opraviť.

Benchmark je tiež takmer výlučne v angličtine a zameraný na trh USA. To nie je len výhrada k zovšeobecneniu; znamená to, že výsledky hovoria len veľmi málo o výkone napríklad pri nemeckých alebo čínskych finančných dokumentoch alebo v jurisdikciách s inými účtovnými štandardmi. Pre projekt ako Beancount.io, ktorý slúži globálnej komunite používateľov, je to významná medzera.

Príbeh modelov vyladených inštrukciami je tiež zložitejší, než sa na prvý pohľad zdá. Jemné doladenie pomáha pri sentimente (FinMA 7B na úrovni 0,88), ale „poskytuje len minimálne zlepšenia pri zložitých úlohách ako QA“. Článok to uvádza ako zistenie, ale neponúka mechanistické vysvetlenie. Ide o katastrofické zabúdanie (catastrophic forgetting) schopnosti uvažovania základného modelu? Je distribúcia dát pre jemné doladenie príliš úzka? Samotný rozsah benchmarku na toto nedokáže odpovedať.

Prečo je to dôležité pre AI vo financiách

Výsledky FinBen poskytujú tímu Bean Labs jasnejšiu východiskovú pozíciu, než sme mali doteraz. Úlohy najrelevantnejšie pre agenta Beancount účtovnej knihy — numerické QA nad štruktúrovanými finančnými správami (FinQA: 0,63 Exact Match), extrakcia informácií z popisov transakcií (NER: 0,83 F1) a detekcia anomálií alebo klasifikácia podvodov (úlohy riadenia rizík vykazujúce veľký rozptyl) — sú tu zastúpené a žiadna z nich nie je úplne vyriešená.

Kolaps v prognózovaní (0,54 pri pohybe akcií) je pre náš užší prípad použitia vlastne upokojujúci: nežiadame modely, aby predpovedali trhy, žiadame ich, aby klasifikovali, extrahovali a zapisovali späť štruktúrované záznamy. Tieto úlohy sa pohybujú v rozmedzí 0,63 – 0,83 v závislosti od zložitosti, čo je použiteľný základ — hoci „použiteľný“ neznamená „bezpečný pre produkciu bez ľudskej kontroly“.

Medzera medzi štruktúrovanou extrakciou a uvažovaním s otvoreným koncom sa tiež priamo premieta do problému bezpečnosti spätného zápisu. Ak model dokáže spoľahlivo extrahovať entitu (F1 0,83), ale má problém uvažovať o jej numerických dôsledkoch (FinQA 0,63) alebo generovať správny štruktúrovaný výstup (extrakcia vzťahov: 0,01), potom najbezpečnejšia architektúra drží tieto kroky oddelené, s explicitnou validáciou medzi nimi.

Čo si prečítať ďalej

  • FinMaster (arXiv:2505.13533) — explicitne benchmarkuje end-to-end účtovné pracovné postupy vrátane zápisov do denníka a odsúhlasenia (reconciliation); má bližšie k úlohám Beancountu než čokoľvek vo FinBen.
  • „Table Meets LLM: Can Large Language Models Understand Structured Table Data?“ (arXiv:2305.13062, WSDM 2024) — Účtovné knihy Beancount sú v podstate štruktúrované tabuľky; tento článok benchmarkuje presne tie schopnosti porozumenia štruktúre, ktoré sú základom každého agenta čítajúceho účtovnú knihu.
  • ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629) — rámec prepojeného uvažovania a konania (reasoning-and-action) je to, čo by väčšina agentov so spätným zápisom používala; pochopenie jeho režimov zlyhania je teraz dôležitejšie, keď FinBen ukázal, kde sa skutočne nachádza spodná hranica uvažovania.