Mike Thrift
Marketing Manager
FinQA: Benchmark na meranie numerického uvažovania AI vo finančných správach
FinQA (EMNLP 2021) vytvoril 8 281 párov otázok a odpovedí z výkazov ziskov a strát spoločností z indexu S&P 500, ktoré vyžadujú viacstupňové aritmetické programy. Neurónové modely dosiahli pri vydaní skóre 61 % v porovnaní s 91 % u ľudských expertov; presnosť klesá na 22 % pri programoch s tromi a viacerými krokmi. Chybové režimy — doménové konštanty, prepojenie naprieč modalitami, dĺžka reťazca — priamo zodpovedajú výzvam, ktorým dnes čelia agenti Beancount.
FinanceBench: Prečo RAG s vektorovým úložiskom zlyháva pri reálnych finančných dokumentoch
FinanceBench vyhodnocuje 16 konfigurácií AI voči 10 231 otázkam z reálnych výkazov SEC; RAG so zdieľaným vektorovým úložiskom odpovedá správne len v 19 % prípadov a dokonca aj GPT-4-Turbo s ideálnym textovým úryvkom (oracle passage) dosahuje len 85 % presnosť — čo ukazuje, že numerické uvažovanie, nie vyhľadávanie, je hlavným obmedzením pre podnikovú finančnú AI.
DSPy: Nahradenie krehkého prompt engineeringu kompilovanými LLM pipeline-ami
DSPy nahrádza ručne písané reťazce promptov deklaratívnymi signatúrami a kompilátorom riadeným metrikami – zvyšuje výkon Llama2-13b z 9,4 % na 46,9 % v matematickom uvažovaní GSM8K a ponúka udržateľnejšiu cestu pre produkčné finančné AI pipeline-y.
LATS: Language Agent Tree Search — uvažovanie, konanie a plánovanie v jednom rámci
LATS (Language Agent Tree Search, ICML 2024) zjednocuje ReAct, Tree of Thoughts a Reflexion do jedného rámca MCTS, pričom dosahuje 92,7 % pass@1 v HumanEval s GPT-4. Pre účtovné knihy Beancount spravované cez git je požiadavka na vrátenie stavu, ktorá obmedzuje LATS v produkčných prostrediach, triviálne splnená.
Self-RAG: Adaptívne vyhľadávanie a sebakritika pre LLM
Self-RAG (ICLR 2024 Oral) trénuje jazykový model, aby sa rozhodol, kedy vyhľadávať, a následne ohodnotil svoje vlastné výsledky pomocou štyroch reflexných tokenov — dosiahol 55,8 % v PopQA a 80,2 FactScore v biografiách, čím prekonal ChatGPT v piatich benchmarkoch. Analýza pokrýva mechanizmus, výsledky ablácie, limity reprodukovateľnosti a dôsledky pre finančných AI agentov nad Beancount účtovnými knihami.
Voyager: Knižnice zručností ako základ pre celoživotné učenie AI agentov
Voyager, agent pre Minecraft poháňaný GPT-4 od spoločností NVIDIA a Caltech, demonštruje, že perzistentná knižnica kódových zručností umožňuje skutočné celoživotné učenie bez ladenia (fine-tuning) – objavil 3,3× viac položiek ako predchádzajúce špičkové riešenia. Tento vzorec sa priamo prenáša na dlhodobú automatizáciu účtovnej knihy Beancount, hoci finančná správnosť vyžaduje staging vrstvy, ktoré herné sandboxy nikdy nepotrebujú.
HippoRAG: Neurobiologicky inšpirovaná dlhodobá pamäť pre LLM
HippoRAG (NeurIPS 2024) buduje graf znalostí z trojíc OpenIE a pri dopytovaní aplikuje Personalizovaný PageRank, čím dosahuje 89,1 % Recall@5 v 2WikiMultiHopQA oproti 68,2 % pri ColBERTv2 – s priamym vplyvom na dopytovanie komplexných finančných účtovných kníh v rámci viacročnej histórie transakcií.
AgentBench: Hodnotenie LLM ako agentov — Ponaučenia pre spoľahlivosť finančnej AI
AgentBench (Liu et al., ICLR 2024) benchmarkuje 27 LLM v 8 interaktívnych prostrediach — GPT-4 dosiahol celkové skóre 4,01 oproti 0,96 pri najlepšom open-source modeli. Tri dominantné chybové režimy (prekročenie limitu úloh pri 67,9 % zlyhaní vedomostného grafu, chyby formátu pri 53,3 % zlyhaní databáz a neplatné akcie) priamo zodpovedajú rizikám nasadenia Beancount write-back agenta na reálnu účtovnú knihu.
BloombergGPT a limity doménovo špecifických LLM vo financiách
Spoločnosť Bloomberg vytrénovala 50-miliardový LLM model na 569 miliardách tokenov finančných údajov a prekonala všeobecné modely v benchmarkoch sentimentu a uvažovania nad tabuľkami – potom ho GPT-4 vyrovnala bez akéhokoľvek špecifického finančného tréningu. Čo tento experiment za 10 miliónov dolárov prezrádza o kompromisoch doménového predtrénovania, tokenizácii čísel a o tom, prečo je používanie nástrojov pre účtovníckych agentov spoľahlivejšie než interné mechanizmy modelov.
AutoGen: Viacagentové konverzačné rámce pre finančnú AI
AutoGen (Wu et al., 2023) predstavuje viacagentový konverzačný rámec, v ktorom agenti s podporou LLM odosielajú správy na dokončenie úloh; nastavenie s dvoma agentmi zvyšuje presnosť MATH benchmarku z 55 % na 69 % a vyhradený agent SafeGuard zlepšuje detekciu nebezpečného kódu až o 35 bodov F1 – tieto zistenia sú priamo použiteľné na budovanie bezpečných, modulárnych automatizačných liniek pre Beancount.
Gorilla: How Retrieval-Aware Training Reduces LLM API Hallucinations from 78% to 11%
Gorilla (Patil et al., NeurIPS 2024) fine-tunes a 7B LLaMA model with Retriever-Aware Training on retrieved API documentation, cutting hallucination rates from 78% to 11% versus GPT-4 zero-shot — with direct implications for finance AI write-back agents where wrong account names or inverted signs are correctness failures, not annoyances.
MemGPT: Virtuálna správa kontextu pre LLM agentov
MemGPT aplikuje stránkovanie virtuálnej pamäte v štýle operačných systémov na modely LLM, pričom využíva trojúrovňové úložisko — pracovnú pamäť, pamäť pre vyvolanie a archívnu pamäť — aby agentom poskytol trvalé vybavovanie informácií naprieč reláciami; v benchmarkoch viac-reláciových chatov dosahuje MemGPT s GPT-4 presnosť 92,5 % oproti 32,1 % základnej úrovni s pevným kontextom.