Mike Thrift
Marketing Manager
GuardAgent: Deterministické presadzovanie bezpečnosti pre LLM agentov prostredníctvom vykonávania kódu
GuardAgent (ICML 2025) umiestňuje samostatného LLM agenta medzi cieľového agenta a jeho prostredie, pričom overuje každú navrhovanú akciu generovaním a spúšťaním kódu v Pythone — dosahuje 98,7 % presnosť presadzovania pravidiel pri zachovaní 100 % dokončenia úloh, v porovnaní s 81 % presnosťou a 29 – 71 % zlyhaním úloh pri bezpečnostných pravidlách vložených priamo do promptu.
Debata viacerých agentov LLM: Skutočné zisky presnosti, nekontrolovaný výpočtový výkon a kolektívny klam
Podrobné čítanie článku Du et al. z ICML 2024 o debate viacerých agentov – ktorý uvádza 14,8-bodový nárast presnosti v aritmetike – spolu s vyvráteniami z roku 2025 ukazujúcimi, že jednotliví agenti s rovnakým rozpočtom vyrovnajú výkon debaty, a analýza toho, prečo kolektívny klam (65 % zlyhaní debaty) predstavuje špecifické riziká pre zápisy do účtovnej knihy s asistenciou AI.
LLM nie sú užitočné pre predpovedanie časových radov: Čo NeurIPS 2024 znamená pre finančnú AI
Článok z konferencie NeurIPS 2024 Spotlight analyzuje tri metódy predpovedania časových radov založené na LLM — OneFitsAll, Time-LLM a CALF — a zisťuje, že odstránenie jazykového modelu vo väčšine prípadov zlepšuje presnosť, pričom zrýchľuje trénovanie až 1 383-násobne. Pre aplikácie finančnej AI, ako je predikcia zostatkov v Beancount, ľahké jednoúčelové modely konzistentne porážajú adaptované LLM.
AuditCopilot: LLMs na detekciu podvodov v podvojnom účtovníctve
AuditCopilot aplikuje open-source LLM (Mistral-8B, Gemma, Llama-3.1) na detekciu podvodov v podnikových účtovných zápisoch, čím znižuje počet falošne pozitívnych výsledkov z 942 na 12 — avšak ablácia odhaľuje, že LLM funguje primárne ako syntetická vrstva nad skóre Isolation Forest, nie ako nezávislý detektor anomálií.
TAT-LLM: Doladený LLaMA 2 pre diskrétne uvažovanie nad finančnými tabuľkami a textom
TAT-LLM dolaďuje LLaMA 2 7B pomocou LoRA na benchmarkoch QA pre finančné tabuľky a text, pričom dosahuje 64,60 % EM na FinQA — čím prekonáva 63,91 % modelu GPT-4 — rozkladom uvažovania do deterministických krokov Extrahuje-Uvažuje-Vykonáva, ktoré eliminujú aritmetické chyby.
Fine-Tuning vs. RAG: Prečo vyhľadávanie vyhráva pri vkladaní nových znalostí do LLM
Empirické porovnanie RAG oproti neriadenému jemnému doladeniu na 7B LLM modeloch ukazuje, že RAG dosahuje presnosť 0,875+ pri faktoch po dátume ukončenia tréningu, zatiaľ čo jemné doladenie stagnuje na 0,504 – s priamymi dôsledkami pre návrh agentov Beancount a akýkoľvek systém vyžadujúci časté aktualizácie znalostí.
IRCoT: Prekladanie vyhľadávania s reťazcom úvah pre viacstupňové odpovedanie na otázky
IRCoT prekladá vyhľadávanie BM25 s každým krokom slučky uvažovania pomocou reťazca myšlienok, čím dosahuje o +11,3 vyšší recall vyhľadávania a o +7,1 lepšie F1 na HotpotQA oproti jednostupňovému RAG — a ukazuje, že 3B model môže poraziť GPT-3 175B, ak je stratégia vyhľadávania správna.
FLARE: Aktívne generovanie rozšírené o vyhľadávanie
FLARE (EMNLP 2023) zlepšuje štandardný RAG spustením vyhľadávania uprostred generovania pomocou prahových hodnôt spoľahlivosti pravdepodobnosti tokenov, pričom dosahuje 51,0 EM na 2WikiMultihopQA oproti 39,4 pri jednorazovom vyhľadávaní — avšak zlyhania kalibrácie v modeloch vyladených na inštrukcie obmedzujú jeho spoľahlivosť pre produkčných finančných agentov.
Generovanie rozšírené o vyhľadávanie pre úlohy NLP náročné na znalosti
Práca Lewisa a kol. z konferencie NeurIPS 2020 predstavila hybridnú architektúru RAG — generátor BART-large spárovaný s vyhľadávačom indexovaným pomocou FAISS nad 21 miliónmi pasáží z Wikipédie — čím dosiahla 44,5 EM v Natural Questions a definovala parametrické/neparametrické rozdelenie, ktoré je dnes základom väčšiny produkčných AI systémov. Táto recenzia sa zaoberá kompromismi medzi RAG-Sequence a RAG-Token, poruchovým režimom kolapsu vyhľadávania a tým, čo znamenajú zastarané indexy pre finančnú AI postavenú na Beancount účtovných knihách typu append-only.
MultiHiertt: Benchmarking numerického uvažovania nad multi-hierarchickými finančnými tabuľkami
MultiHiertt (ACL 2022) predstavuje 10 440 párov otázok a odpovedí z reálnych finančných správ s priemerom 3,89 hierarchických tabuliek na správu; najmodernejšie modely dosahujú skóre 38 % F1 oproti 87 % u ľudí, s 15-bodovou penalizáciou pri otázkach naprieč tabuľkami — čo kvantifikuje medzeru vo vyhľadávaní, ktorú musí finančná AI prekonať.
ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi
ConvFinQA (EMNLP 2022) rozširuje FinQA o viackolové konverzácie nad správami o výnosoch indexu S&P 500 a zisťuje, že najlepší doladený model dosahuje 68,9 % presnosť vykonania v porovnaní s 89,4 % u ľudských expertov – a klesá na 52,4 % pri hybridných multiaspektových konverzáciách, kde modely musia prenášať numerický kontext medzi rôznymi finančnými témami.
TAT-QA: Hybridný benchmark pre usudzovanie z tabuliek a textu vo finančných výročných správach
TAT-QA je benchmark so 16 552 otázkami nad hybridnými kontextmi finančných správ (tabuľky plus text), ktorý ukázal, že hlavným úzkym hrdlom finančnej AI je ukotvenie dôkazov (evidence grounding), nie aritmetika. Do roku 2024 dosiahli vyladené 7B LLM modely F1 skóre 83 %, čím takmer uzavreli stratu voči 91 % ľudskému maximu.