Bean Labs Research Log

Fraud DetectionLLMDouble-EntryJournal EntriesAIMachine LearningComplianceBookkeeping

AuditCopilot: LLMs na detekciu podvodov v podvojnom účtovníctve

AuditCopilot aplikuje open-source LLM (Mistral-8B, Gemma, Llama-3.1) na detekciu podvodov v podnikových účtovných zápisoch, čím znižuje počet falošne pozitívnych výsledkov z 942 na 12 — avšak ablácia odhaľuje, že LLM funguje primárne ako syntetická vrstva nad skóre Isolation Forest, nie ako nezávislý detektor anomálií.

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: Doladený LLaMA 2 pre diskrétne uvažovanie nad finančnými tabuľkami a textom

TAT-LLM dolaďuje LLaMA 2 7B pomocou LoRA na benchmarkoch QA pre finančné tabuľky a text, pričom dosahuje 64,60 % EM na FinQA — čím prekonáva 63,91 % modelu GPT-4 — rozkladom uvažovania do deterministických krokov Extrahuje-Uvažuje-Vykonáva, ktoré eliminujú aritmetické chyby.

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

Fine-Tuning vs. RAG: Prečo vyhľadávanie vyhráva pri vkladaní nových znalostí do LLM

Empirické porovnanie RAG oproti neriadenému jemnému doladeniu na 7B LLM modeloch ukazuje, že RAG dosahuje presnosť 0,875+ pri faktoch po dátume ukončenia tréningu, zatiaľ čo jemné doladenie stagnuje na 0,504 – s priamymi dôsledkami pre návrh agentov Beancount a akýkoľvek systém vyžadujúci časté aktualizácie znalostí.

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT: Prekladanie vyhľadávania s reťazcom úvah pre viacstupňové odpovedanie na otázky

IRCoT prekladá vyhľadávanie BM25 s každým krokom slučky uvažovania pomocou reťazca myšlienok, čím dosahuje o +11,3 vyšší recall vyhľadávania a o +7,1 lepšie F1 na HotpotQA oproti jednostupňovému RAG — a ukazuje, že 3B model môže poraziť GPT-3 175B, ak je stratégia vyhľadávania správna.

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE: Aktívne generovanie rozšírené o vyhľadávanie

FLARE (EMNLP 2023) zlepšuje štandardný RAG spustením vyhľadávania uprostred generovania pomocou prahových hodnôt spoľahlivosti pravdepodobnosti tokenov, pričom dosahuje 51,0 EM na 2WikiMultihopQA oproti 39,4 pri jednorazovom vyhľadávaní — avšak zlyhania kalibrácie v modeloch vyladených na inštrukcie obmedzujú jeho spoľahlivosť pre produkčných finančných agentov.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancount

Generovanie rozšírené o vyhľadávanie pre úlohy NLP náročné na znalosti

Práca Lewisa a kol. z konferencie NeurIPS 2020 predstavila hybridnú architektúru RAG — generátor BART-large spárovaný s vyhľadávačom indexovaným pomocou FAISS nad 21 miliónmi pasáží z Wikipédie — čím dosiahla 44,5 EM v Natural Questions a definovala parametrické/neparametrické rozdelenie, ktoré je dnes základom väčšiny produkčných AI systémov. Táto recenzia sa zaoberá kompromismi medzi RAG-Sequence a RAG-Token, poruchovým režimom kolapsu vyhľadávania a tým, čo znamenajú zastarané indexy pre finančnú AI postavenú na Beancount účtovných knihách typu append-only.

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt: Benchmarking numerického uvažovania nad multi-hierarchickými finančnými tabuľkami

MultiHiertt (ACL 2022) predstavuje 10 440 párov otázok a odpovedí z reálnych finančných správ s priemerom 3,89 hierarchických tabuliek na správu; najmodernejšie modely dosahujú skóre 38 % F1 oproti 87 % u ľudí, s 15-bodovou penalizáciou pri otázkach naprieč tabuľkami — čo kvantifikuje medzeru vo vyhľadávaní, ktorú musí finančná AI prekonať.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi

ConvFinQA (EMNLP 2022) rozširuje FinQA o viackolové konverzácie nad správami o výnosoch indexu S&P 500 a zisťuje, že najlepší doladený model dosahuje 68,9 % presnosť vykonania v porovnaní s 89,4 % u ľudských expertov – a klesá na 52,4 % pri hybridných multiaspektových konverzáciách, kde modely musia prenášať numerický kontext medzi rôznymi finančnými témami.

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA: Hybridný benchmark pre usudzovanie z tabuliek a textu vo finančných výročných správach

TAT-QA je benchmark so 16 552 otázkami nad hybridnými kontextmi finančných správ (tabuľky plus text), ktorý ukázal, že hlavným úzkym hrdlom finančnej AI je ukotvenie dôkazov (evidence grounding), nie aritmetika. Do roku 2024 dosiahli vyladené 7B LLM modely F1 skóre 83 %, čím takmer uzavreli stratu voči 91 % ľudskému maximu.

LLM nie sú užitočné pre predpovedanie časových radov: Čo NeurIPS 2024 znamená pre finančnú AI

Latest articles

AuditCopilot: LLMs na detekciu podvodov v podvojnom účtovníctve

TAT-LLM: Doladený LLaMA 2 pre diskrétne uvažovanie nad finančnými tabuľkami a textom

Fine-Tuning vs. RAG: Prečo vyhľadávanie vyhráva pri vkladaní nových znalostí do LLM

IRCoT: Prekladanie vyhľadávania s reťazcom úvah pre viacstupňové odpovedanie na otázky

FLARE: Aktívne generovanie rozšírené o vyhľadávanie

Generovanie rozšírené o vyhľadávanie pre úlohy NLP náročné na znalosti

MultiHiertt: Benchmarking numerického uvažovania nad multi-hierarchickými finančnými tabuľkami

ConvFinQA: Viackolové finančné QA a 21-bodový rozdiel medzi modelmi a ľudskými expertmi

TAT-QA: Hybridný benchmark pre usudzovanie z tabuliek a textu vo finančných výročných správach

Začnite s Beancount.io

Začíname

Funkcie

Komunita

Právne informácie