Bean Labs Research Log

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Prečo RAG s vektorovým úložiskom zlyháva pri reálnych finančných dokumentoch

FinanceBench vyhodnocuje 16 konfigurácií AI voči 10 231 otázkam z reálnych výkazov SEC; RAG so zdieľaným vektorovým úložiskom odpovedá správne len v 19 % prípadov a dokonca aj GPT-4-Turbo s ideálnym textovým úryvkom (oracle passage) dosahuje len 85 % presnosť — čo ukazuje, že numerické uvažovanie, nie vyhľadávanie, je hlavným obmedzením pre podnikovú finančnú AI.

AILLMMachine LearningAutomationFinanceBeancount

DSPy: Nahradenie krehkého prompt engineeringu kompilovanými LLM pipeline-ami

DSPy nahrádza ručne písané reťazce promptov deklaratívnymi signatúrami a kompilátorom riadeným metrikami – zvyšuje výkon Llama2-13b z 9,4 % na 46,9 % v matematickom uvažovaní GSM8K a ponúka udržateľnejšiu cestu pre produkčné finančné AI pipeline-y.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Language Agent Tree Search — uvažovanie, konanie a plánovanie v jednom rámci

LATS (Language Agent Tree Search, ICML 2024) zjednocuje ReAct, Tree of Thoughts a Reflexion do jedného rámca MCTS, pričom dosahuje 92,7 % pass@1 v HumanEval s GPT-4. Pre účtovné knihy Beancount spravované cez git je požiadavka na vrátenie stavu, ktorá obmedzuje LATS v produkčných prostrediach, triviálne splnená.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Adaptívne vyhľadávanie a sebakritika pre LLM

Self-RAG (ICLR 2024 Oral) trénuje jazykový model, aby sa rozhodol, kedy vyhľadávať, a následne ohodnotil svoje vlastné výsledky pomocou štyroch reflexných tokenov — dosiahol 55,8 % v PopQA a 80,2 FactScore v biografiách, čím prekonal ChatGPT v piatich benchmarkoch. Analýza pokrýva mechanizmus, výsledky ablácie, limity reprodukovateľnosti a dôsledky pre finančných AI agentov nad Beancount účtovnými knihami.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Knižnice zručností ako základ pre celoživotné učenie AI agentov

Voyager, agent pre Minecraft poháňaný GPT-4 od spoločností NVIDIA a Caltech, demonštruje, že perzistentná knižnica kódových zručností umožňuje skutočné celoživotné učenie bez ladenia (fine-tuning) – objavil 3,3× viac položiek ako predchádzajúce špičkové riešenia. Tento vzorec sa priamo prenáša na dlhodobú automatizáciu účtovnej knihy Beancount, hoci finančná správnosť vyžaduje staging vrstvy, ktoré herné sandboxy nikdy nepotrebujú.

LLMAIMachine LearningBeancountPlain-Text AccountingFinanceAutomation

HippoRAG: Neurobiologicky inšpirovaná dlhodobá pamäť pre LLM

HippoRAG (NeurIPS 2024) buduje graf znalostí z trojíc OpenIE a pri dopytovaní aplikuje Personalizovaný PageRank, čím dosahuje 89,1 % Recall@5 v 2WikiMultiHopQA oproti 68,2 % pri ColBERTv2 – s priamym vplyvom na dopytovanie komplexných finančných účtovných kníh v rámci viacročnej histórie transakcií.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: Hodnotenie LLM ako agentov — Ponaučenia pre spoľahlivosť finančnej AI

AgentBench (Liu et al., ICLR 2024) benchmarkuje 27 LLM v 8 interaktívnych prostrediach — GPT-4 dosiahol celkové skóre 4,01 oproti 0,96 pri najlepšom open-source modeli. Tri dominantné chybové režimy (prekročenie limitu úloh pri 67,9 % zlyhaní vedomostného grafu, chyby formátu pri 53,3 % zlyhaní databáz a neplatné akcie) priamo zodpovedajú rizikám nasadenia Beancount write-back agenta na reálnu účtovnú knihu.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT a limity doménovo špecifických LLM vo financiách

Spoločnosť Bloomberg vytrénovala 50-miliardový LLM model na 569 miliardách tokenov finančných údajov a prekonala všeobecné modely v benchmarkoch sentimentu a uvažovania nad tabuľkami – potom ho GPT-4 vyrovnala bez akéhokoľvek špecifického finančného tréningu. Čo tento experiment za 10 miliónov dolárov prezrádza o kompromisoch doménového predtrénovania, tokenizácii čísel a o tom, prečo je používanie nástrojov pre účtovníckych agentov spoľahlivejšie než interné mechanizmy modelov.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Viacagentové konverzačné rámce pre finančnú AI

AutoGen (Wu et al., 2023) predstavuje viacagentový konverzačný rámec, v ktorom agenti s podporou LLM odosielajú správy na dokončenie úloh; nastavenie s dvoma agentmi zvyšuje presnosť MATH benchmarku z 55 % na 69 % a vyhradený agent SafeGuard zlepšuje detekciu nebezpečného kódu až o 35 bodov F1 – tieto zistenia sú priamo použiteľné na budovanie bezpečných, modulárnych automatizačných liniek pre Beancount.

FinQA: Benchmark na meranie numerického uvažovania AI vo finančných správach

Latest articles

FinanceBench: Prečo RAG s vektorovým úložiskom zlyháva pri reálnych finančných dokumentoch

DSPy: Nahradenie krehkého prompt engineeringu kompilovanými LLM pipeline-ami

LATS: Language Agent Tree Search — uvažovanie, konanie a plánovanie v jednom rámci

Self-RAG: Adaptívne vyhľadávanie a sebakritika pre LLM

Voyager: Knižnice zručností ako základ pre celoživotné učenie AI agentov

HippoRAG: Neurobiologicky inšpirovaná dlhodobá pamäť pre LLM

AgentBench: Hodnotenie LLM ako agentov — Ponaučenia pre spoľahlivosť finančnej AI

BloombergGPT a limity doménovo špecifických LLM vo financiách

AutoGen: Viacagentové konverzačné rámce pre finančnú AI

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie