Prejsť na hlavný obsah

Bean Labs Research Log

LLM nie sú užitočné pre predpovedanie časových radov: Čo NeurIPS 2024 znamená pre finančnú AI

Článok z konferencie NeurIPS 2024 Spotlight analyzuje tri metódy predpovedania časových radov založené na LLM — OneFitsAll, Time-LLM a CALF — a zisťuje, že odstránenie jazykového modelu vo väčšine prípadov zlepšuje presnosť, pričom zrýchľuje trénovanie až 1 383-násobne. Pre aplikácie finančnej AI, ako je predikcia zostatkov v Beancount, ľahké jednoúčelové modely konzistentne porážajú adaptované LLM.

Latest articles

AuditCopilot: LLMs na detekciu podvodov v podvojnom účtovníctve

AuditCopilot aplikuje open-source LLM (Mistral-8B, Gemma, Llama-3.1) na detekciu podvodov v podnikových účtovných zápisoch, čím znižuje počet falošne pozitívnych výsledkov z 942 na 12 — avšak ablácia odhaľuje, že LLM funguje primárne ako syntetická vrstva nad skóre Isolation Forest, nie ako nezávislý detektor anomálií.

Fine-Tuning vs. RAG: Prečo vyhľadávanie vyhráva pri vkladaní nových znalostí do LLM

Empirické porovnanie RAG oproti neriadenému jemnému doladeniu na 7B LLM modeloch ukazuje, že RAG dosahuje presnosť 0,875+ pri faktoch po dátume ukončenia tréningu, zatiaľ čo jemné doladenie stagnuje na 0,504 – s priamymi dôsledkami pre návrh agentov Beancount a akýkoľvek systém vyžadujúci časté aktualizácie znalostí.

FLARE: Aktívne generovanie rozšírené o vyhľadávanie

FLARE (EMNLP 2023) zlepšuje štandardný RAG spustením vyhľadávania uprostred generovania pomocou prahových hodnôt spoľahlivosti pravdepodobnosti tokenov, pričom dosahuje 51,0 EM na 2WikiMultihopQA oproti 39,4 pri jednorazovom vyhľadávaní — avšak zlyhania kalibrácie v modeloch vyladených na inštrukcie obmedzujú jeho spoľahlivosť pre produkčných finančných agentov.

Generovanie rozšírené o vyhľadávanie pre úlohy NLP náročné na znalosti

Práca Lewisa a kol. z konferencie NeurIPS 2020 predstavila hybridnú architektúru RAG — generátor BART-large spárovaný s vyhľadávačom indexovaným pomocou FAISS nad 21 miliónmi pasáží z Wikipédie — čím dosiahla 44,5 EM v Natural Questions a definovala parametrické/neparametrické rozdelenie, ktoré je dnes základom väčšiny produkčných AI systémov. Táto recenzia sa zaoberá kompromismi medzi RAG-Sequence a RAG-Token, poruchovým režimom kolapsu vyhľadávania a tým, čo znamenajú zastarané indexy pre finančnú AI postavenú na Beancount účtovných knihách typu append-only.

MultiHiertt: Benchmarking numerického uvažovania nad multi-hierarchickými finančnými tabuľkami

MultiHiertt (ACL 2022) predstavuje 10 440 párov otázok a odpovedí z reálnych finančných správ s priemerom 3,89 hierarchických tabuliek na správu; najmodernejšie modely dosahujú skóre 38 % F1 oproti 87 % u ľudí, s 15-bodovou penalizáciou pri otázkach naprieč tabuľkami — čo kvantifikuje medzeru vo vyhľadávaní, ktorú musí finančná AI prekonať.

ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi

ConvFinQA (EMNLP 2022) rozširuje FinQA o viackolové konverzácie nad správami o výnosoch indexu S&P 500 a zisťuje, že najlepší doladený model dosahuje 68,9 % presnosť vykonania v porovnaní s 89,4 % u ľudských expertov – a klesá na 52,4 % pri hybridných multiaspektových konverzáciách, kde modely musia prenášať numerický kontext medzi rôznymi finančnými témami.

TAT-QA: Hybridný benchmark pre usudzovanie z tabuliek a textu vo finančných výročných správach

TAT-QA je benchmark so 16 552 otázkami nad hybridnými kontextmi finančných správ (tabuľky plus text), ktorý ukázal, že hlavným úzkym hrdlom finančnej AI je ukotvenie dôkazov (evidence grounding), nie aritmetika. Do roku 2024 dosiahli vyladené 7B LLM modely F1 skóre 83 %, čím takmer uzavreli stratu voči 91 % ľudskému maximu.