57 篇博文含有标签「Automation」

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM：针对金融表格和文本离散推理进行微调的 LLaMA 2

TAT-LLM 通过 LoRA 在金融表格文本问答基准上对 LLaMA 2 7B 进行微调，在 FinQA 上实现了 64.60% 的精确匹配率（EM）——超过了 GPT-4 的 63.91% ——其原理是将推理分解为确定的“提取-推理-执行”步骤，从而消除了算术错误。

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

微调与 RAG：为什么检索在为 LLM 注入新知识方面胜出

对 7B 参数 LLM 进行的 RAG 与无监督微调的实证比较显示，RAG 在知识截止日期后的事实准确率达到了 0.875 以上，而微调则停滞在 0.504 —— 这对 Beancount 智能体设计及任何需要频繁更新知识的系统具有直接意义。

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT：将检索与思维链交织以实现多步问答

IRCoT 将 BM25 检索与思维链推理循环的每一步交织在一起，在 HotpotQA 数据集上相比单步 RAG 实现了 +11.3 的检索召回率和 +7.1 的 F1 分数提升，并证明了当检索策略正确时，3B 模型可以击败 GPT-3 175B。

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE：主动检索增强生成

FLARE (EMNLP 2023) 通过在生成过程中利用词元概率置信度阈值触发检索，在标准 RAG 基础上进行了改进。在 2WikiMultihopQA 任务中，它达到了 51.0 EM，而单次检索仅为 39.4。然而，指令微调聊天模型中的校准失效限制了其在生产级财务智能体中的可靠性。

AILLMMachine LearningAutomationFinanceBeancount

DSPy：用编译后的 LLM 管道替换脆弱的提示工程

DSPy 用声明式签名和指标驱动的编译器替换了手工编写的提示字符串——将 Llama2-13b 在 GSM8K 数学推理上的表现从 9.4% 提升到 46.9%，并为生产级金融 AI 管道提供了一条更具可维护性的路径。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS：语言智能体树搜索 —— 集推理、行动与规划于一体的框架

LATS（语言智能体树搜索，ICML 2024）将 ReAct、思维树（Tree of Thoughts）和 Reflexion 统一到一个 MCTS 框架中，在 HumanEval 上配合 GPT-4 实现了 92.7% 的 pass@1。对于基于 Git 的 Beancount 账本，LATS 在生产环境中受限的状态回退要求可以被轻易满足。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager：技能库作为终身学习 AI 智能体的基石

Voyager 是由英伟达（NVIDIA）和加州理工学院开发的 GPT-4 驱动的 Minecraft 智能体。它证明了持久的代码技能库无需微调即可实现真正的终身学习——发现的项目比之前的最优技术多 3.3 倍。这种模式可以直接映射到长周期的 Beancount 账本自动化，尽管财务正确性需要游戏沙箱从未要求的暂存层。

LLMAIMachine LearningBeancountPlain-Text AccountingFinanceAutomation

HippoRAG：受神经生物学启发的 LLM 长期记忆机制

HippoRAG (NeurIPS 2024) 通过 OpenIE 三元组构建知识图谱，并在查询时应用个性化 PageRank (PPR)，在 2WikiMultiHopQA 数据集上的 Recall@5 达到 89.1%（对比 ColBERTv2 的 68.2%）——这对跨多年交易历史查询复杂财务账本具有直接意义。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench：评估作为代理的 LLM —— 对金融 AI 可靠性的启示

AgentBench（Liu 等人，ICLR 2024）在 8 个交互式环境中对 27 个大语言模型进行了基准测试 —— GPT-4 的综合得分为 4.01，而表现最好的开源模型仅为 0.96。三种主要的失败模式（知识图谱失败中 67.9% 为超出任务限制、数据库失败中 53.3% 为格式错误以及无效操作）直接对应了在真实账本上部署 Beancount 回写代理的风险。

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen：金融 AI 的多智能体对话框架

AutoGen（Wu 等，2023）引入了一个多智能体对话框架，其中由大语言模型（LLM）驱动的智能体通过传递消息来完成任务；双智能体设置将 MATH 基准测试的准确率从 55% 提升至 69%，而专门的 SafeGuard 智能体将不安全代码检测提高了多达 35 个 F1 分数——这些研究结果直接适用于构建安全、模块化的 Beancount 自动化流程。

关于一切 Automation