Preskočiť na hlavný obsah
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Zobraziť všetkých autorov

FinQA: Benchmark na meranie numerického uvažovania AI vo finančných správach
·mike

FinQA: Benchmark na meranie numerického uvažovania AI vo finančných správach

FinQA (EMNLP 2021) vytvoril 8 281 párov otázok a odpovedí z výkazov ziskov a strát spoločností z indexu S&P 500, ktoré vyžadujú viacstupňové aritmetické programy. Neurónové modely dosiahli pri vydaní skóre 61 % v porovnaní s 91 % u ľudských expertov; presnosť klesá na 22 % pri programoch s tromi a viacerými krokmi. Chybové režimy — doménové konštanty, prepojenie naprieč modalitami, dĺžka reťazca — priamo zodpovedajú výzvam, ktorým dnes čelia agenti Beancount.

ai
machine-learning
llm
finance
+2
FinanceBench: Prečo RAG s vektorovým úložiskom zlyháva pri reálnych finančných dokumentoch
·mike

FinanceBench: Prečo RAG s vektorovým úložiskom zlyháva pri reálnych finančných dokumentoch

FinanceBench vyhodnocuje 16 konfigurácií AI voči 10 231 otázkam z reálnych výkazov SEC; RAG so zdieľaným vektorovým úložiskom odpovedá správne len v 19 % prípadov a dokonca aj GPT-4-Turbo s ideálnym textovým úryvkom (oracle passage) dosahuje len 85 % presnosť — čo ukazuje, že numerické uvažovanie, nie vyhľadávanie, je hlavným obmedzením pre podnikovú finančnú AI.

ai
llm
machine-learning
financial-reporting
+3
DSPy: Nahradenie krehkého prompt engineeringu kompilovanými LLM pipeline-ami
·mike

DSPy: Nahradenie krehkého prompt engineeringu kompilovanými LLM pipeline-ami

DSPy nahrádza ručne písané reťazce promptov deklaratívnymi signatúrami a kompilátorom riadeným metrikami – zvyšuje výkon Llama2-13b z 9,4 % na 46,9 % v matematickom uvažovaní GSM8K a ponúka udržateľnejšiu cestu pre produkčné finančné AI pipeline-y.

ai
llm
machine-learning
automation
+2
LATS: Language Agent Tree Search — uvažovanie, konanie a plánovanie v jednom rámci
·mike

LATS: Language Agent Tree Search — uvažovanie, konanie a plánovanie v jednom rámci

LATS (Language Agent Tree Search, ICML 2024) zjednocuje ReAct, Tree of Thoughts a Reflexion do jedného rámca MCTS, pričom dosahuje 92,7 % pass@1 v HumanEval s GPT-4. Pre účtovné knihy Beancount spravované cez git je požiadavka na vrátenie stavu, ktorá obmedzuje LATS v produkčných prostrediach, triviálne splnená.

ai
llm
machine-learning
automation
+3
Self-RAG: Adaptívne vyhľadávanie a sebakritika pre LLM
·mike

Self-RAG: Adaptívne vyhľadávanie a sebakritika pre LLM

Self-RAG (ICLR 2024 Oral) trénuje jazykový model, aby sa rozhodol, kedy vyhľadávať, a následne ohodnotil svoje vlastné výsledky pomocou štyroch reflexných tokenov — dosiahol 55,8 % v PopQA a 80,2 FactScore v biografiách, čím prekonal ChatGPT v piatich benchmarkoch. Analýza pokrýva mechanizmus, výsledky ablácie, limity reprodukovateľnosti a dôsledky pre finančných AI agentov nad Beancount účtovnými knihami.

ai
machine-learning
llm
technology
+3
Voyager: Knižnice zručností ako základ pre celoživotné učenie AI agentov
·mike

Voyager: Knižnice zručností ako základ pre celoživotné učenie AI agentov

Voyager, agent pre Minecraft poháňaný GPT-4 od spoločností NVIDIA a Caltech, demonštruje, že perzistentná knižnica kódových zručností umožňuje skutočné celoživotné učenie bez ladenia (fine-tuning) – objavil 3,3× viac položiek ako predchádzajúce špičkové riešenia. Tento vzorec sa priamo prenáša na dlhodobú automatizáciu účtovnej knihy Beancount, hoci finančná správnosť vyžaduje staging vrstvy, ktoré herné sandboxy nikdy nepotrebujú.

ai
llm
machine-learning
automation
+3
HippoRAG: Neurobiologicky inšpirovaná dlhodobá pamäť pre LLM
·mike

HippoRAG: Neurobiologicky inšpirovaná dlhodobá pamäť pre LLM

HippoRAG (NeurIPS 2024) buduje graf znalostí z trojíc OpenIE a pri dopytovaní aplikuje Personalizovaný PageRank, čím dosahuje 89,1 % Recall@5 v 2WikiMultiHopQA oproti 68,2 % pri ColBERTv2 – s priamym vplyvom na dopytovanie komplexných finančných účtovných kníh v rámci viacročnej histórie transakcií.

llm
ai
machine-learning
beancount
+3
AgentBench: Hodnotenie LLM ako agentov — Ponaučenia pre spoľahlivosť finančnej AI
·mike

AgentBench: Hodnotenie LLM ako agentov — Ponaučenia pre spoľahlivosť finančnej AI

AgentBench (Liu et al., ICLR 2024) benchmarkuje 27 LLM v 8 interaktívnych prostrediach — GPT-4 dosiahol celkové skóre 4,01 oproti 0,96 pri najlepšom open-source modeli. Tri dominantné chybové režimy (prekročenie limitu úloh pri 67,9 % zlyhaní vedomostného grafu, chyby formátu pri 53,3 % zlyhaní databáz a neplatné akcie) priamo zodpovedajú rizikám nasadenia Beancount write-back agenta na reálnu účtovnú knihu.

ai
llm
machine-learning
automation
+3
BloombergGPT a limity doménovo špecifických LLM vo financiách
·mike

BloombergGPT a limity doménovo špecifických LLM vo financiách

Spoločnosť Bloomberg vytrénovala 50-miliardový LLM model na 569 miliardách tokenov finančných údajov a prekonala všeobecné modely v benchmarkoch sentimentu a uvažovania nad tabuľkami – potom ho GPT-4 vyrovnala bez akéhokoľvek špecifického finančného tréningu. Čo tento experiment za 10 miliónov dolárov prezrádza o kompromisoch doménového predtrénovania, tokenizácii čísel a o tom, prečo je používanie nástrojov pre účtovníckych agentov spoľahlivejšie než interné mechanizmy modelov.

llm
ai
machine-learning
finance
+3
AutoGen: Viacagentové konverzačné rámce pre finančnú AI
·mike

AutoGen: Viacagentové konverzačné rámce pre finančnú AI

AutoGen (Wu et al., 2023) predstavuje viacagentový konverzačný rámec, v ktorom agenti s podporou LLM odosielajú správy na dokončenie úloh; nastavenie s dvoma agentmi zvyšuje presnosť MATH benchmarku z 55 % na 69 % a vyhradený agent SafeGuard zlepšuje detekciu nebezpečného kódu až o 35 bodov F1 – tieto zistenia sú priamo použiteľné na budovanie bezpečných, modulárnych automatizačných liniek pre Beancount.

ai
llm
automation
beancount
+3
Gorilla: How Retrieval-Aware Training Reduces LLM API Hallucinations from 78% to 11%
·mike

Gorilla: How Retrieval-Aware Training Reduces LLM API Hallucinations from 78% to 11%

Gorilla (Patil et al., NeurIPS 2024) fine-tunes a 7B LLaMA model with Retriever-Aware Training on retrieved API documentation, cutting hallucination rates from 78% to 11% versus GPT-4 zero-shot — with direct implications for finance AI write-back agents where wrong account names or inverted signs are correctness failures, not annoyances.

ai
llm
machine-learning
automation
+3
MemGPT: Virtuálna správa kontextu pre LLM agentov
·mike

MemGPT: Virtuálna správa kontextu pre LLM agentov

MemGPT aplikuje stránkovanie virtuálnej pamäte v štýle operačných systémov na modely LLM, pričom využíva trojúrovňové úložisko — pracovnú pamäť, pamäť pre vyvolanie a archívnu pamäť — aby agentom poskytol trvalé vybavovanie informácií naprieč reláciami; v benchmarkoch viac-reláciových chatov dosahuje MemGPT s GPT-4 presnosť 92,5 % oproti 32,1 % základnej úrovni s pevným kontextom.

ai
llm
machine-learning
automation
+4
Zobrazené 61–72 z 87 príspevkov