Bean Labs Research Log

Fraud DetectionLLMDouble-EntryJournal EntriesAIMachine LearningComplianceBookkeeping

AuditCopilot：大语言模型在复式记账欺诈检测中的应用

AuditCopilot 将开源大语言模型（Mistral-8B、Gemma、Llama-3.1）应用于企业分录欺诈检测，将误报从 942 个削减至 12 个——但消融实验显示，LLM 主要作为孤立森林（Isolation Forest）得分之上的综合层，而非独立的异常检测器。

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM：针对金融表格和文本离散推理进行微调的 LLaMA 2

TAT-LLM 通过 LoRA 在金融表格文本问答基准上对 LLaMA 2 7B 进行微调，在 FinQA 上实现了 64.60% 的精确匹配率（EM）——超过了 GPT-4 的 63.91% ——其原理是将推理分解为确定的“提取-推理-执行”步骤，从而消除了算术错误。

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

微调与 RAG：为什么检索在为 LLM 注入新知识方面胜出

对 7B 参数 LLM 进行的 RAG 与无监督微调的实证比较显示，RAG 在知识截止日期后的事实准确率达到了 0.875 以上，而微调则停滞在 0.504 —— 这对 Beancount 智能体设计及任何需要频繁更新知识的系统具有直接意义。

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT：将检索与思维链交织以实现多步问答

IRCoT 将 BM25 检索与思维链推理循环的每一步交织在一起，在 HotpotQA 数据集上相比单步 RAG 实现了 +11.3 的检索召回率和 +7.1 的 F1 分数提升，并证明了当检索策略正确时，3B 模型可以击败 GPT-3 175B。

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE：主动检索增强生成

FLARE (EMNLP 2023) 通过在生成过程中利用词元概率置信度阈值触发检索，在标准 RAG 基础上进行了改进。在 2WikiMultihopQA 任务中，它达到了 51.0 EM，而单次检索仅为 39.4。然而，指令微调聊天模型中的校准失效限制了其在生产级财务智能体中的可靠性。

AIMachine LearningLLMData SciencePlain-Text AccountingBeancount

Lewis 等人在 NeurIPS 2020 发表的论文引入了混合 RAG 架构——由 BART-large 生成器和基于 2100 万个维基百科段落的 FAISS 索引检索器组成。该架构在 Natural Questions 上达到了 44.5 EM，并确立了参数化/非参数化分离的范式，这已成为当今大多数生产级人工智能系统的基础。本综述涵盖了 RAG-Sequence 与 RAG-Token 的权衡、检索崩溃故障模式，以及过时索引对于构建在仅追加 Beancount 账本之上的金融 AI 意味着什么。