AuditCopilot прилага LLM с отворен код (Mistral-8B, Gemma, Llama-3.1) за откриване на измами в корпоративни счетоводни записи, намалявайки фалшиво положителните резултати от 942 на 12 — но аблационният анализ разкрива, че LLM функционира основно като слой за синтез върху резултатите от Isolation Forest, а не като независим детектор на аномалии.
TAT-LLM фино настройва LLaMA 2 7B чрез LoRA върху бенчмаркове за финансови въпроси и отговори от таблици и текстове, постигайки 64,60% EM на FinQA — надминавайки GPT-4 (63,91%) — чрез декомпозиране на разсъжденията в детерминистични стъпки Извличане-Разсъждение-Изпълнение, които елиминират аритметичните грешки.
Емпирично сравнение на RAG срещу неконтролирано фино донастройване при LLM със 7 млрд. параметри показва, че RAG постига 0,875+ точност върху факти след крайния срок на обучение, докато финото донастройване спира на 0,504 — с преки последици за проектирането на Beancount агенти и всяка система, изискваща чести актуализации на знанията.
IRCoT преплита BM25 извличане с всяка стъпка от цикъла на разсъждения чрез верига от мисли, постигайки +11.3 recall при извличане и +7.1 F1 при HotpotQA спрямо едностепенен RAG — и показва, че 3B модел може да победи GPT-3 175B, когато стратегията за извличане е правилна.
FLARE (EMNLP 2023) подобрява стандартния RAG чрез задействане на извличане по средата на генерацията с използване на прагове за увереност на вероятността на токените, достигайки 51,0 EM на 2WikiMultihopQA спрямо 39,4 за еднократно извличане — но провалите в калибрирането при чат модели, настроени чрез инструкции, ограничават надеждността му за производствени финансови агенти.
Lewis et al.'s NeurIPS 2020 paper introduced the hybrid RAG architecture—a BART-large generator paired with a FAISS-indexed retriever over 21 million Wikipedia passages—achieving 44.5 EM on Natural Questions and establishing the parametric/non-parametric split that now underlies most production AI systems. This review covers RAG-Sequence vs. RAG-Token trade-offs, the retrieval collapse failure mode, and what stale indexes mean for financial AI built on append-only Beancount ledgers.
MultiHiertt (ACL 2022) представя 10 440 двойки въпроси и отговори от реални финансови отчети със средно 3,89 йерархични таблици всеки; съвременните модели постигат 38% F1 срещу 87% за хората, с 15 точки наказание за въпроси между различни таблици — количествено измерване на разликата в извличането, която финансовият AI трябва да преодолее.
ConvFinQA (EMNLP 2022) разширява FinQA в многократни диалози върху отчетите за приходите на S&P 500, установявайки, че най-добрият фино настроен модел постига 68,9% точност на изпълнение срещу 89,4% за човешки експерти — и спада до 52,4% при хибридни разговори с множество аспекти, където моделите трябва да пренасят числовия контекст през различни финансови теми.
TAT-QA е бенчмарк с 16 552 въпроса върху хибридни контексти от таблици и текст във финансови отчети, който показа, че приземяването на доказателствата (grounding) — а не аритметиката — е основното тясно място в AI за финансите; до 2024 г. фино настроени 7B LLM модели достигнаха 83% F1, запълвайки по-голямата част от разликата спрямо 91% таван при хората.