AuditCopilot применяет LLM с открытым исходным кодом (Mistral-8B, Gemma, Llama-3.1) для обнаружения мошенничества в корпоративных журнальных проводках, сокращая количество ложноположительных результатов с 942 до 12. Однако абляционное исследование показывает, что LLM функционирует в первую очередь как уровень синтеза поверх оценок Isolation Forest, а не как независимый детектор аномалий.
TAT-LLM выполняет тонкую настройку LLaMA 2 7B с помощью LoRA на бенчмарках QA для финансовых таблиц и текстов, достигая 64,60% EM на FinQA и превосходя GPT-4 (63,91%). Это достигается путем декомпозиции рассуждений на детерминированные этапы «Извлечение-Рассуждение-Выполнение», что устраняет арифметические ошибки.
Эмпирическое сравнение RAG и неконтролируемого дообучения на моделях LLM с 7 млрд параметров показывает, что RAG достигает точности 0,875+ на фактах после даты отсечки обучения, в то время как дообучение останавливается на уровне 0,504. Это имеет прямое значение для проектирования агентов Beancount и любых систем, требующих частого обновления знаний.
IRCoT чередует поиск BM25 с каждым этапом цикла рассуждений «цепочка мыслей», достигая +11,3 к полноте поиска и +7,1 к F1 на HotpotQA по сравнению с одноэтапным RAG — и показывает, что модель 3B может превзойти GPT-3 175B при правильной стратегии поиска.
FLARE (EMNLP 2023) улучшает стандартный RAG, инициируя поиск в середине процесса генерации на основе порогов вероятности токенов. Он достигает 51,0 EM на 2WikiMultihopQA против 39,4 при однократном поиске, однако ошибки калибровки в моделях, настроенных на следование инструкциям, ограничивают его надежнос ть для финансовых агентов.
Статья Льюиса и др. на NeurIPS 2020 представила гибридную архитектуру RAG — генератор BART-large в паре с ретривером на базе индекса FAISS по 21 миллиону отрывков из Википедии. Она достигла 44,5 EM на Natural Questions и заложила основу разделения на параметрическую и непараметрическую память, которая сегодня лежит в основе большинства производственных систем ИИ. В этом обзоре рассматриваются компромиссы между RAG-Sequence и RAG-Token, режим отказа в виде коллапса поиска и то, что значат устаревшие индексы для финансового ИИ, построенного на журналах Beancount, работающих только на добавление.
MultiHiertt (ACL 2022) представляет 10 440 пар вопросов и ответов из реальных финансовых отчетов, содержащих в среднем 3,89 иерархических таблиц; современные модели показывают результат 38% F1 против 87% у людей, со штрафом в 15 пунктов для вопросов по нескольким таблицам — это количественно оценивает разрыв в поиске данных, который должен преодолеть ИИ в финансах.
ConvFinQA (EMNLP 2022) расширяет FinQA до многоходовых диалогов по отчетам о доходах S&P 500, обнаружив, что лучшая дообученная модель достигает точности выполнения 68,9% против 89,4% у экспертов-людей — и падает до 52,4% в гибридных многоаспектных диалогах, где модели должны переносить числовой контекст между различными финансовыми темами.
TAT-QA — это бенчмарк из 16 552 вопросов по гибридным контекстам финансовых отчетов (таблица + текст), который показал, что обоснование доказательств (grounding), а не арифметика, является основным узким местом в финансовом ИИ; к 2024 году дообученные LLM на 7 млрд параметров достигли 83% F1, сократив большую часть разрыва по сравнению с человеческим порогом в 91%.