10 篇博文含有标签「Reconciliation」

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V：金融领域带视觉引用的多模态 RAG

FinRAGBench-V (EMNLP 2025) 是首个针对金融领域带视觉引用的多模态 RAG 的大规模基准测试，涵盖超过 11.2 万页文档和 1,394 对人工标注的问答对。顶级模型在块级引用召回率上仅达到 20–61%，且多模态检索的表现优于纯文本检索近 50 个百分点。

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

LLM 智能体能担任 CFO 吗？EnterpriseArena 132 个月的模拟揭示了巨大差距

EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟，追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存；GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%，且期末估值是模型的 5 倍。关键瓶颈在于：LLM 在 80% 的时间里跳过了账目对账，导致其基于过时的财务状态进行决策。

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench：MCP 架构下真实世界金融工具使用的大语言模型代理基准测试

FinMCP-Bench 在 65 个 MCP 服务器支持的 613 个真实世界金融工具使用任务上评估了六个大语言模型——表现最好的模型在多轮任务中的精确匹配率仅为 3.08%，揭示了从单工具到多轮场景下 20 倍的性能崩塌。

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

发现于中：通过校准位置注意力偏差提升长上下文 RAG

一种无需训练的推理时校准方法，通过从大语言模型注意力权重中减去位置偏差，在检索文档被埋没在上下文中部时恢复高达 15 个百分点的 RAG 准确率——以及这对特定金融代理流水线的意义。

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE：大语言模型在跨周期和跨实体财务分析中的失败表现

Fin-RATE 对 17 个大语言模型进行了基准测试，涵盖了来自 2,472 份 SEC 文件的 7,500 对专家精选的问答。研究揭示了在纵向追踪下准确率暴跌 18.60%，而金融专业模型 Fin-R1 在跨实体任务中的表现下降了 54 点——检索流程而非骨干模型才是核心瓶颈。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager：技能库作为终身学习 AI 智能体的基石

Voyager 是由英伟达（NVIDIA）和加州理工学院开发的 GPT-4 驱动的 Minecraft 智能体。它证明了持久的代码技能库无需微调即可实现真正的终身学习——发现的项目比之前的最优技术多 3.3 倍。这种模式可以直接映射到长周期的 Beancount 账本自动化，尽管财务正确性需要游戏沙箱从未要求的暂存层。

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen：金融 AI 的多智能体对话框架

AutoGen（Wu 等，2023）引入了一个多智能体对话框架，其中由大语言模型（LLM）驱动的智能体通过传递消息来完成任务；双智能体设置将 MATH 基准测试的准确率从 55% 提升至 69%，而专门的 SafeGuard 智能体将不安全代码检测提高了多达 35 个 F1 分数——这些研究结果直接适用于构建安全、模块化的 Beancount 自动化流程。

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct：为什么可执行的 Python 代码能让 LLM 智能体准确率提升 20%

CodeAct (ICML 2024) 使用可执行的 Python 代码取代了 JSON 工具调用，在多工具任务中将 GPT-4 智能体的成功率提高了约 20 个百分点，并将交互轮数减少了 30% —— 这对于构建可靠的 Beancount 对账智能体具有直接意义。

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC：为什么大模型自我修正需要外部工具反馈

CRITIC (ICLR 2024) 通过将大语言模型（LLM）的修订建立在外部工具信号的基础上，在开放域问答中实现了 7.7 的 F1 值提升，并减少了 79.2% 的有害内容——这种“先验证后修正”的循环直接对应了 Beancount 金融代理的回写安全机制。

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct：在语言模型中协同推理与行动

ReAct (Yao et al., ICLR 2023) 在单个轨迹中交替进行思维链推理和工具行动，在事实验证方面优于纯 CoT，在具身任务的模仿学习方面优于基准 34 个百分点。本文分析了该论文的失效模式——搜索诱导的干扰和复合错误——以及它们对于向 Beancount 账本回写数据的自主代理意味着什么。

关于一切 Reconciliation