57 篇博文含有标签「Automation」

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

LLM 智能体能担任 CFO 吗？EnterpriseArena 132 个月的模拟揭示了巨大差距

EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟，追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存；GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%，且期末估值是模型的 5 倍。关键瓶颈在于：LLM 在 80% 的时间里跳过了账目对账，导致其基于过时的财务状态进行决策。

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench：为何在真实世界工具调用中没有 LLM 的会话准确率能超过 15%

WildToolBench (ICLR 2026) 评估了 57 个 LLM 在源自真实用户行为的 1,024 个任务上的表现——没有模型的会话准确率超过 15%，其中组合编排、隐藏意图和指令转换是三个最显著的失败模式。

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench：真实世界的模式复杂度打破了大语言模型结构化输出的保证

JSONSchemaBench 对 9,558 个真实世界的 JSON 模式进行了针对六种约束解码框架的测试，发现模式复杂度导致覆盖率从简单模式的 86% 崩塌至复杂模式的 3%，其中 XGrammar 静默输出了 38 个不合规结果，且没有任何框架能够涵盖所有 45 个 JSON Schema 特征类别。

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench：MCP 架构下真实世界金融工具使用的大语言模型代理基准测试

FinMCP-Bench 在 65 个 MCP 服务器支持的 613 个真实世界金融工具使用任务上评估了六个大语言模型——表现最好的模型在多轮任务中的精确匹配率仅为 3.08%，揭示了从单工具到多轮场景下 20 倍的性能崩塌。

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace：针对金融任务的 LLM 工具调用轨迹级评估

FinTrace 在 9 个指标上对 13 个大语言模型（LLM）进行了评估，涵盖了 800 条专家标注的金融任务轨迹。研究发现，前沿模型在工具选择方面表现强劲（F1 ~0.9），但在信息利用率（即代理对工具返回结果进行推理的步骤）方面得分仅为 3.23/5。

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench：评估大语言模型智能体在真实金融工具使用中的表现

FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合，在真实金融任务中对 LLM 智能体进行基准测试。研究发现，GPT-4o 保守的 22.7% 调用率带来的回答质量（CSS 0.670）高于 Qwen3-8B 激进的 87.1% 工具调用率（TIR），而所有测试模型的意图不匹配率均超过 50%。

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval：金融领域全方位 RAG 评估基准

OmniEval (EMNLP 2025) 通过 1.14 万个自动生成的测试用例，在 5 种任务类型 × 16 个金融主题上对 RAG 系统进行了基准测试。表现最好的系统数值准确度仅为 36%——这有力地证明了在写入结构化金融账本之前，RAG 流水线需要验证层。

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

发现于中：通过校准位置注意力偏差提升长上下文 RAG

一种无需训练的推理时校准方法，通过从大语言模型注意力权重中减去位置偏差，在检索文档被埋没在上下文中部时恢复高达 15 个百分点的 RAG 准确率——以及这对特定金融代理流水线的意义。

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

面向 LLM 智能体的不确定性感知委派：何时从小型模型切换到大型模型

ReDAct 默认运行小型模型，仅在 Token 级困惑度显示不确定性时才上报给昂贵的大型模型。在匹配或超过 GPT-5.2 准确率的同时，实现了 64% 的成本节省 —— 这一模式可直接应用于 Beancount 交易分类智能体。

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands：AI 软件代理开放平台及其对财务自动化的意义

OpenHands 是一个采用 MIT 许可证、基于 Docker 沙箱的代理平台，其中 CodeAct 在 SWE-Bench Lite 上达到了 26% 的成绩——这是一个发人深省的基准测试，它确立了 AI 代理如今能够可靠完成的任务范围，以及为什么首批富有成效的财务部署应当是严格限制范围的，而非完全自主的。

关于一切 Automation