Prejsť na hlavný obsah

Bean Labs Research Log

FinQA: Benchmark na meranie numerického uvažovania AI vo finančných správach

FinQA (EMNLP 2021) vytvoril 8 281 párov otázok a odpovedí z výkazov ziskov a strát spoločností z indexu S&P 500, ktoré vyžadujú viacstupňové aritmetické programy. Neurónové modely dosiahli pri vydaní skóre 61 % v porovnaní s 91 % u ľudských expertov; presnosť klesá na 22 % pri programoch s tromi a viacerými krokmi. Chybové režimy — doménové konštanty, prepojenie naprieč modalitami, dĺžka reťazca — priamo zodpovedajú výzvam, ktorým dnes čelia agenti Beancount.

Latest articles

FinanceBench: Prečo RAG s vektorovým úložiskom zlyháva pri reálnych finančných dokumentoch

FinanceBench vyhodnocuje 16 konfigurácií AI voči 10 231 otázkam z reálnych výkazov SEC; RAG so zdieľaným vektorovým úložiskom odpovedá správne len v 19 % prípadov a dokonca aj GPT-4-Turbo s ideálnym textovým úryvkom (oracle passage) dosahuje len 85 % presnosť — čo ukazuje, že numerické uvažovanie, nie vyhľadávanie, je hlavným obmedzením pre podnikovú finančnú AI.

LATS: Language Agent Tree Search — uvažovanie, konanie a plánovanie v jednom rámci

LATS (Language Agent Tree Search, ICML 2024) zjednocuje ReAct, Tree of Thoughts a Reflexion do jedného rámca MCTS, pričom dosahuje 92,7 % pass@1 v HumanEval s GPT-4. Pre účtovné knihy Beancount spravované cez git je požiadavka na vrátenie stavu, ktorá obmedzuje LATS v produkčných prostrediach, triviálne splnená.

Self-RAG: Adaptívne vyhľadávanie a sebakritika pre LLM

Self-RAG (ICLR 2024 Oral) trénuje jazykový model, aby sa rozhodol, kedy vyhľadávať, a následne ohodnotil svoje vlastné výsledky pomocou štyroch reflexných tokenov — dosiahol 55,8 % v PopQA a 80,2 FactScore v biografiách, čím prekonal ChatGPT v piatich benchmarkoch. Analýza pokrýva mechanizmus, výsledky ablácie, limity reprodukovateľnosti a dôsledky pre finančných AI agentov nad Beancount účtovnými knihami.

Voyager: Knižnice zručností ako základ pre celoživotné učenie AI agentov

Voyager, agent pre Minecraft poháňaný GPT-4 od spoločností NVIDIA a Caltech, demonštruje, že perzistentná knižnica kódových zručností umožňuje skutočné celoživotné učenie bez ladenia (fine-tuning) – objavil 3,3× viac položiek ako predchádzajúce špičkové riešenia. Tento vzorec sa priamo prenáša na dlhodobú automatizáciu účtovnej knihy Beancount, hoci finančná správnosť vyžaduje staging vrstvy, ktoré herné sandboxy nikdy nepotrebujú.

AgentBench: Hodnotenie LLM ako agentov — Ponaučenia pre spoľahlivosť finančnej AI

AgentBench (Liu et al., ICLR 2024) benchmarkuje 27 LLM v 8 interaktívnych prostrediach — GPT-4 dosiahol celkové skóre 4,01 oproti 0,96 pri najlepšom open-source modeli. Tri dominantné chybové režimy (prekročenie limitu úloh pri 67,9 % zlyhaní vedomostného grafu, chyby formátu pri 53,3 % zlyhaní databáz a neplatné akcie) priamo zodpovedajú rizikám nasadenia Beancount write-back agenta na reálnu účtovnú knihu.

BloombergGPT a limity doménovo špecifických LLM vo financiách

Spoločnosť Bloomberg vytrénovala 50-miliardový LLM model na 569 miliardách tokenov finančných údajov a prekonala všeobecné modely v benchmarkoch sentimentu a uvažovania nad tabuľkami – potom ho GPT-4 vyrovnala bez akéhokoľvek špecifického finančného tréningu. Čo tento experiment za 10 miliónov dolárov prezrádza o kompromisoch doménového predtrénovania, tokenizácii čísel a o tom, prečo je používanie nástrojov pre účtovníckych agentov spoľahlivejšie než interné mechanizmy modelov.

AutoGen: Viacagentové konverzačné rámce pre finančnú AI

AutoGen (Wu et al., 2023) predstavuje viacagentový konverzačný rámec, v ktorom agenti s podporou LLM odosielajú správy na dokončenie úloh; nastavenie s dvoma agentmi zvyšuje presnosť MATH benchmarku z 55 % na 69 % a vyhradený agent SafeGuard zlepšuje detekciu nebezpečného kódu až o 35 bodov F1 – tieto zistenia sú priamo použiteľné na budovanie bezpečných, modulárnych automatizačných liniek pre Beancount.