Prejsť na hlavný obsah

FinanceBench: Prečo RAG s vektorovým úložiskom zlyháva pri reálnych finančných dokumentoch

· 5 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

FinanceBench prichádza vo chvíli, keď každý dodávateľ podnikovej AI tvrdí, že jeho systém dokáže „odpovedať na otázky z vašich finančných dokumentov“. Tento článok od Patronus AI podrobuje tieto tvrdenia náročnému testu s použitím reálnych výkazov SEC a starostlivo vybraných otázok typu „open-book“. Výsledky sú nepríjemným čítaním pre každého, kto buduje finančnú AI.

O čom je tento článok

2026-05-12-financebench-open-book-financial-qa-benchmark

Islam a kol. predstavujú FinanceBench: Nový benchmark pre odpovedanie na finančné otázky (arXiv:2311.11944), testovaciu sadu 10 231 otázok o verejne obchodovaných spoločnostiach čerpaných z reálnych výkazov SEC — výročných správ 10-K, štvrťročných výkazov 10-Q, aktuálnych správ 8-K a prepisov hovorov k hospodárskym výsledkom. Na rozdiel od starších finančných QA datasetov (FinQA, TAT-QA), ktoré predkladajú vopred extrahované tabuľky a úryvky, FinanceBench vyžaduje, aby systém pred odpoveďou sám vyhľadal dôkazy v celých dokumentoch. To je realistické prostredie. Otázky sú navrhnuté tak, aby boli fakticky jednoznačné a podľa slov autorov predstavovali „minimálny štandard výkonu“.

Tím vyhodnotil 16 konfigurácií zahŕňajúcich GPT-4-Turbo, Llama2 a Claude2 v rámci štyroch stratégií vyhľadávania: „closed-book“ (bez vyhľadávania), zdieľané vektorové úložisko, vektorové úložisko pre jednotlivé dokumenty a prompty s dlhým kontextom obsahujúce celú relevantnú stranu. Ľudskí anotátori manuálne skontrolovali všetkých 2 400 odpovedí v 150 open-source prípadoch.

Kľúčové myšlienky

  • Vyhľadávanie nie je úzkym hrdlom. GPT-4-Turbo, ktorému bol poskytnutý „oracle“ úryvok — presná strana obsahujúca odpoveď — stále dosahuje presnosť len 85 %. Prompting s dlhým kontextom (automatické vloženie správnej strany) dosahuje skóre 79 %. Dokonalé vyhľadávanie vám pridá len šesť percentuálnych bodov.
  • RAG s vektorovým úložiskom je skutočným problémom. GPT-4-Turbo s vektorovým úložiskom pre jednotlivé dokumenty: 50 % správne, 39 % odmietnutí. So zdieľaným vektorovým úložiskom naprieč spoločnosťami: 19 % správne, 68 % odmietnutí. Titulok o „81 % miere zlyhania“ pochádza práve z tohto nastavenia so zdieľaným úložiskom — čo je konfigurácia, ktorú väčšina podnikových demo verzií skutočne používa.
  • Modely zlyhávajú rôzne. Llama2 agresívne halucinuje (54 – 70 % nesprávne); GPT-4-Turbo odmieta odpovedať (39 – 68 % radšej odmietlo, než by odpovedalo nesprávne). Oba režimy zlyhania sú v produkcii neprijateľné, ale nepredstavujú rovnaké riziko.
  • 66 % otázok vyžaduje numerické uvažovanie. Miery rastu, marže, medziročné zmeny. To je oblasť, kde modely najčastejšie chybujú — chyby vo výpočtoch, zámena jednotiek, chyby v znamienkach.
  • Dlhý kontext to takmer zachraňuje. Dlhý kontext Claude2: 76 % správne. Dlhý kontext GPT-4-Turbo: 79 %. Toto sú najlepšie praktické čísla, dosiahnuté vynechaním vyhľadávania a priamym vložením celej relevantnej strany.
  • Dokonca aj „oracle“ má trhliny. S dokonalými dôkazmi je strop 85 %, nie 100 %. Pätnásť percent zlyhaní sú čisté zlyhania v uvažovaní bez súvislosti s vyhľadávaním.

Čo obstojí — a čo nie

Návrh benchmarku je solídny. Trvanie na reálnych dokumentoch namiesto vopred extrahovaných úryvkov je správnou metodologickou voľbou — testuje to, na čom pri nasadení skutočne záleží. Manuálne vyhodnotenie 2 400 odpovedí je nákladné a dôveryhodné.

Čo považujem za menej presvedčivé, je vyvodzovanie rebríčkov z n=150. Rozdiel medzi dlhým kontextom Claude2 (76 %) a GPT-4-Turbo (79 %) je pri takejto veľkosti vzorky štatisticky nevýznamný, no článok ho prezentuje ako poradie. Kompletný benchmark s 10 231 otázkami existuje, ale nie je verejne skórovaný, čo obmedzuje nezávislú reprodukciu.

Výsledok s „oracle“ je zároveň najdôležitejším a najmenej analyzovaným zistením. Ak modely zlyhávajú v 15 % prípadov so správnou stranou v ruke, problémom je uvažovanie a aritmetika, nie vyhľadávanie. Článok označuje nástroje kalkulačky a chain-of-thought (reťazec úvah) za témy pre budúcu prácu — tieto experimenty mali byť stredobodom tohto článku, nie len poznámkou pod čiarou.

Benchmark tiež priznáva, že cieli na „minimálny výkon“: otázky týkajúce sa jedného dokumentu s jednoznačnými odpoveďami. Uvažovanie naprieč dokumentmi, viacročné trendy a porovnania medzi spoločnosťami sú vylúčené. Články citujúce 79 % úspešnosť dlhého kontextu toto upozornenie zriedkakedy uvádzajú.

Prečo je to dôležité pre finančnú AI

Prípad použitia spätného zápisu (write-back) v Beancounte sa takmer priamo zhoduje s režimami zlyhania FinanceBench. Agent, ktorý vyhľadá záznam o transakcii a skontroluje, či suma súhlasí s bankovým výpisom, vykonáva rovnakú úlohu typu „vyhľadávanie a následná aritmetika“, akú meria tento benchmark. Strop „oracle“ — 85 % aj pri dokonalom kontexte — je relevantným dizajnovým obmedzením: aj keď agent nájde správny záznam v účtovnej knihe, existuje reálna pravdepodobnosť, že nesprávne vypočíta porovnanie, pomýli si znamienko alebo zle prečíta jednotky.

Rozdiel v zlyhaní Llama2 a GPT-4 je dôležitý pre architektúru agentov. Odmietnutie je riešiteľné (presmerovanie na ľudskú kontrolu); halucinovaná zhoda zapísaná do účtovnej knihy nie. To hovorí v prospech uprednostnenia konzervatívneho odmietnutia pred sebavedomou halucináciou, a to aj za cenu nižšej zdanlivej miery úspešnosti.

Výhoda dlhého kontextu (79 % vs. 50 %) je pre aplikácie v účtovných knihách prakticky frustrujúca. Viacročné súbory Beancount sú príliš veľké na to, aby sa dali vložiť celé. Riešenie vyhľadávania nad hustými numerickými dokumentmi — nielen vyhľadávanie textu — zostáva otvoreným problémom.

Čo čítať ďalej

  • FinQA: A Dataset of Numerical Reasoning over Financial Data (Chen et al., EMNLP 2021, arXiv:2109.00122) — predchodca benchmarku, ktorý FinanceBench explicitne vylepšuje; užitočné pre pochopenie toho, čo sa v tejto oblasti podarilo vyriešiť predtým, než bolo vyžadované vyhľadávanie v reálnych dokumentoch.
  • DocFinQA: A Long-Context Financial Reasoning Dataset (Reddy et al., ACL 2024) — rozširuje FinanceBench o náročnejšie otázky vyžadujúce uvažovanie naprieč rôznymi sekciami v rámci jedného výkazu.
  • PAL: Program-Aided Language Models (Gao et al., arXiv:2211.10435, ICML 2023) — presúva aritmetiku na interpret Pythonu, čím priamo rieši 66 % otázok FinanceBench, ktoré zlyhávajú na numerickom uvažovaní.