FinDER: Skutočné dopyty analytikov odhaľujú 74 % medzeru v návratnosti pri finančnom RAG
FinDER (arXiv:2504.15800) je benchmark pre vyhľadávanie postavený na jednoduchom, ale nedocenenom pozorovaní: dopyty, ktoré píšu skutoční finanční profesionáli, sa vôbec nepodobajú na vyleštené otázky v akademických benchmarkoch. Čítam ho, pretože sa nachádza na priesečníku dvoch tém, ktoré sledujem – medzery vo vyhľadávaní vo finančnej AI a problému praktického realizmu, ktorý začali odhaľovať DocFinQA a FinanceBench.
Práca
Chanyeol Choi, Jihoon Kwon a kolegovia z firmy zaoberajúcej sa finančnou AI predstavujú dataset 5 703 expertmi anotovaných trojíc dopyt–dôkaz–odpoveď pochádzajúcich z reálnej služby otázok a odpovedí pre analytikov hedžových fondov. Dokumenty sú podania Form 10-K od 490 spoločností z indexu S&P 500, zhromaždené z databázy SEC EDGAR. To, čo odlišuje FinDER od predchádzajúcich benchmarkov, je strana dopytu: 89,86 % dopytov obsahuje tri alebo viac doménovo špecifických skratiek alebo akronymov. Namiesto „Aký je celkový výnos spoločnosti X za fiškálny rok 2023?“ by skutočný analytik mohol napísať „GOOGL 10-K FY23 výnosy rozpis podľa segmentov“. Dataset bol publikovaný na ICLR 2025 Workshop on Advances in Financial AI a neskôr sa objavil na ICAIF 2025.
Kľúčové myšlienky
- Návratnosť vyhľadávania je šokujúco nízka plošne: E5-Mistral (najlepší hustý retriever) dosahuje celkovú návratnosť kontextu len 25,95 %; BM25 dosahuje 11,68 %. Kategória „Financie“ — tá, ktorá je najviac relevantná pre účtovníctvo — je najťažšia: 15,84 % a 6,42 %.
- Samotná nejednoznačnosť dopytov stojí 8,2 bodu presnosti: Pri testovaní E5-Mistral na 500 dopytoch autori porovnávajú dobre formulované parafrázy (presnosť 33,9) voči skutočným skráteným dopytom (presnosť 25,7). Rozdiel je plne pripísateľný spracovaniu skratiek/akronymov, nie zložitosti dokumentu.
- Kvalita vyhľadávania je dominantným úzkym hrdlom pre generovanie: LLM bez kontextu skórujú blízko nuly (9 – 10 % správne); s 10 najlepšími vyhľadanými pasážami dosahujú 29 – 34 %; s dokonalým „oracle“ kontextom vyskočia na 60 – 68 %. Tento 35-bodový rozdiel medzi realistickými a ideálnymi podmienkami je väčší ako rozdiel medzi open-source a špičkovými modelmi.
- Kompozičná aritmetika zlyháva aj pri dobrom vyhľadávaní: Viackrokové výpočtové úlohy (kompozičné dopyty) dosahujú len ~20 % správnosti vo všetkých štyroch modeloch — Claude-3.7-Sonnet, GPT-o1, DeepSeek-R1-Distill a Qwen-QWQ — dokonca aj s 10 najlepšími vyhľadanými pasážami. GPT-o1 vedie v úlohách na násobenie s 42,90 %, ale pri delení klesá na 27,78 %.
- Prehodnocovanie (reranking) pomocou LLM prináša mierne, ale konzistentné zlepšenie: Ak necháme modely prehodnotiť 10 najlepších výsledkov z E5-Mistral pred odpovedaním, Claude-3.7-Sonnet dosahuje F1 63,05 a GPT-o1 dosahuje 62,90. Deepseek-R1-Distill zaostáva s 60,01, napriek silnému výkonu v štruktúrovanom uvažovaní inde.
- Náročnosť kategórií je nerovnomerná: Dopyty týkajúce sa rizík sa vyhľadávajú najľahšie (E5-Mistral: 33,07 návratnosť); Financie zostávajú najťažšie (15,84). To koreluje so štruktúrou dopytov — zverejnenia rizík používajú prirodzený jazyk (prózu), finančné tabuľky používajú hustú číselnú notáciu.
Čo obstojí — a čo nie
Základný prínos je solídny: toto je reálna distribúcia dopytov od pracujúcich analytikov a problém so skratkami je skutočný. Akýkoľvek benchmark postavený na Wikipédii alebo crowdsourcingu v štýle FinQA toto prehliada. Trojúrovňová štruktúra hodnotenia — bez kontextu, realistické vyhľadávanie, oracle kontext — je správny dizajn; jasne oddeľuje kvalitu vyhľadávania od kvality uvažovania a ukazuje zvyškovú medzeru v generovaní (stále ~32 – 34 % zlyhanie aj pri perfektnom kontexte pri kvalitatívnych otázkach).
Najslabším miestom práce je reprodukovateľnosť. V čase publikácie nebol dataset verejne dostupný — autori uvádzajú, že ho „plánujú zverejniť neskôr“. To je významný problém pre článok z workshopu, ktorý sa prezentuje ako hodnotiaci štandard. Benchmarky, ktoré nie sú zverejnené, nie sú benchmarkmi; sú to prípadové štúdie. Odvtedy sa objavil na ICAIF 2025, takže zverejnenie mohlo nasledovať, ale verzia na arXiv to nepotvrdzuje.
Hodnotenie vyhľadávania tiež využíva iba štyri jednostupňové modely (BM25, GTE, mE5, E5-Mistral). Chýba hybridné vyhľadávanie, rozširovanie dopytov (query expansion), HyDE alebo krok prepisovania zameraný špecificky na problém skratiek. Vzhľadom na to, že autori presne charakterizovali medzeru spôsobenú skratkami, je prekvapujúce, že netestujú zrejmé riešenie: rozšírenie dopytu („GOOGL“ → „Alphabet Inc.“) pred vyhľadávaním. Tento experiment chýba.
Výsledky generovania si zaslúžia podrobnejšie prečítanie. Výkon ~9 – 10 % bez kontextu nie je užitočná dolná hranica — je to v podstate nula — ale strop 60 – 68 % pri oracle kontexte je informatívnejší, než sa zdá. Aj so správnou pasážou v ruke najlepšie modely zlyhávajú približne v jednej tretine kvalitatívnych otázok a v štyroch pätinách kompozičnej aritmetiky. Na tomto strope záleží: znamená to, že samotné vyhľadávanie problém nevyrieši.
Prečo na tom záleží pre finančnú AI
Distribúcia dopytov vo FinDER dobre mapuje to, ako používatelia Beancountu skutočne komunikujú s agentom nad účtovnou knihou. Používateľ, ktorý si vedie účty roky, bude písať skrátené, kontextuálne dopyty — „AMZN karta Q3 refund?“ namiesto „Aké sú refundácie na kreditnej karte Amazon v treťom štvrťroku?“. Štandardné embedding modely zlyhajú pri vyhľadávaní správnych záznamov, pretože boli trénované na čistom texte v prirodzenom jazyku. 8,2-bodový pokles presnosti od čistých k reálnym dopytom je pravdepodobne konzervatívny pre doménu osobného účtovníctva, kde sú idiosynkratické skratky („prop mgmt popl“ pre „poplatok za správu nehnuteľnosti“) ešte ďalej od trénovacích dát než štandardné skratky SEC.
Strop návratnosti kontextu 25,95 % pri E5-Mistral je hnacou silou: akákoľvek RAG pipeline pre Beancount musí počítať s veľkou časťou chýbajúcich dôkazov. Jedným z dôsledkov je, že opakované vyhľadávanie s vysokou návratnosťou (viacero prechodov, diverzifikované formulácie dopytov) je dôležitejšie ako zvyšovanie F1 pri jednom prechode. Ďalším je, že normalizácia dopytov — mapovanie používateľských skratiek na kánonické názvy účtov pred vyhľadávaním — by mala byť explicitným krokom predbežného spracovania, nie ponechaná na embedding model.
20 % presnosť kompozičnej aritmetiky aj pri oracle kontexte je samostatným signálom: pre výpočtové úlohy v Beancounte je úzkym hrdlom generovania uvažovanie, nie vyhľadávanie. Delegovanie v štýle PAL (generovanie aritmetiky v Pythone namiesto výpočtu v čistom texte) zostáva správnou odpoveďou pre numerické úlohy bez ohľadu na to, aké dobré bude vyhľadávanie.
Čo si prečítať ďalej
- Fin-RATE (arXiv:2602.07294) — sprievodný benchmark pre viacročné sledovanie v podaniach SEC; presnosť klesá o 18,60 % pri časových úlohách, čo je priamo vyjadrený problém viacročnej účtovnej knihy v Beancounte.
- IRCoT (arXiv:2212.10509, ACL 2023) — prekladanie vyhľadávania s uvažovaním pomocou reťazca myšlienok (chain-of-thought); viacprechodová štruktúra vyhľadávania priamo rieši nízku návratnosť pri jednom prechode, ktorú odhaľuje FinDER.
- Rozširovanie dopytov pomocou LLM pre doménovo špecifické vyhľadávanie — žiadna samostatná práca s benchmarkom to zatiaľ nepokrýva dobre, ale medzera v skratkách vo FinDER z toho robí výskumnú prioritu prvého rádu; hľadanie „HyDE financial domain“ a „query expansion SEC filings 2025“ je správnym bodom na začiatok.
