AuditCopilot aplikuje open-source LLM (Mistral-8B, Gemma, Llama-3.1) na detekciu podvodov v podnikových účtovných zápisoch, čím znižuje počet falošne pozitívnych výsledkov z 942 na 12 — avšak ablácia odhaľuje, že LLM funguje primárne ako syntetická vrstva nad skóre Isolation Forest, nie ako nezávislý detektor anomálií.
TAT-LLM dolaďuje LLaMA 2 7B pomocou LoRA na benchmarkoch QA pre finančné tabuľky a text, pričom dosahuje 64,60 % EM na FinQA — čím prekonáva 63,91 % modelu GPT-4 — rozkladom uvažovania do deterministických krokov Extrahuje-Uvažuje-Vykonáva, ktoré eliminujú aritmetické chyby.
Empirické porovnanie RAG oproti neriadenému jemnému doladeniu na 7B LLM modeloch ukazuje, že RAG dosahuje presnosť 0,875+ pri faktoch po dátume ukončenia tréningu, zatiaľ čo jemné doladenie stagnuje na 0,504 – s priamymi dôsledkami pre návrh agentov Beancount a akýkoľvek systém vyžadujúci časté aktualizácie znalostí.
IRCoT prekladá vyhľadávanie BM25 s každým krokom slučky uvažovania pomocou reťazca myšlienok, čím dosahuje o +11,3 vyšší recall vyhľadávania a o +7,1 lepšie F1 na HotpotQA oproti jednostupňovému RAG — a ukazuje, že 3B model môže poraziť GPT-3 175B, ak je stratégia vyhľadávania správna.
FLARE (EMNLP 2023) zlepšuje štandardný RAG spustením vyhľadávania uprostred generovania pomocou prahových hodnôt spoľahlivosti pravdepodobnosti tokenov, pričom dosahuje 51,0 EM na 2WikiMultihopQA oproti 39,4 pri jednorazovom vyhľadávaní — avšak zlyhania kalibrácie v modeloch vyladených na inštrukcie obmedzujú jeho spoľahlivosť pre produkčných finančných agentov.
Práca Lewisa a kol. z konferencie NeurIPS 2020 predstavila hybridnú architektúru RAG — generátor BART-large spárovaný s vyhľadávačom indexovaným pomocou FAISS nad 21 miliónmi pasáží z Wikipédie — čím dosiahla 44,5 EM v Natural Questions a definovala parametrické/neparametrické rozdelenie, ktoré je dnes základom väčšiny produkčných AI systémov. Táto recenzia sa zaoberá kompromismi medzi RAG-Sequence a RAG-Token, poruchovým režimom kolapsu vyhľadávania a tým, čo znamenajú zastarané indexy pre finančnú AI postavenú na Beancount účtovných knihách typu append-only.
MultiHiertt (ACL 2022) predstavuje 10 440 párov otázok a odpovedí z reálnych finančných správ s priemerom 3,89 hierarchických tabuliek na správu; najmodernejšie modely dosahujú skóre 38 % F1 oproti 87 % u ľudí, s 15-bodovou penalizáciou pri otázkach naprieč tabuľkami — čo kvantifikuje medzeru vo vyhľadávaní, ktorú musí finančná AI prekonať.
ConvFinQA (EMNLP 2022) rozširuje FinQA o viackolové konverzácie nad správami o výnosoch indexu S&P 500 a zisťuje, že najlepší doladený model dosahuje 68,9 % presnosť vykonania v porovnaní s 89,4 % u ľudských expertov – a klesá na 52,4 % pri hybridných multiaspektových konverzáciách, kde modely musia prenášať numerický kontext medzi rôznymi finančnými témami.
TAT-QA je benchmark so 16 552 otázkami nad hybridnými kontextmi finančných správ (tabuľky plus text), ktorý ukázal, že hlavným úzkym hrdlom finančnej AI je ukotvenie dôkazov (evidence grounding), nie aritmetika. Do roku 2024 dosiahli vyladené 7B LLM modely F1 skóre 83 %, čím takmer uzavreli stratu voči 91 % ľudskému maximu.