Bean Labs Research Log

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

LLM 智能体能担任 CFO 吗？EnterpriseArena 132 个月的模拟揭示了巨大差距

EnterpriseArena 对 11 个大语言模型进行了为期 132 个月的 CFO 模拟，追踪其生存率、期末估值和结账率。仅 Qwen3.5-9B 在 80% 的测试中幸存；GPT-5.4 和 DeepSeek-V3.1 的幸存率为 0%。人类专家的幸存率为 100%，且期末估值是模型的 5 倍。关键瓶颈在于：LLM 在 80% 的时间里跳过了账目对账，导致其基于过时的财务状态进行决策。

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench：为何在真实世界工具调用中没有 LLM 的会话准确率能超过 15%

WildToolBench (ICLR 2026) 评估了 57 个 LLM 在源自真实用户行为的 1,024 个任务上的表现——没有模型的会话准确率超过 15%，其中组合编排、隐藏意图和指令转换是三个最显著的失败模式。

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

LLM 置信度与校准：研究现状深度综述

一项关于 LLM 置信度估计和校准方法的系统性综述——涵盖白盒 Logit 方法、基于一致性的 SelfCheckGPT 以及语义熵——研究表明，GPT-4 的言语置信度得分仅达到约 62.7% 的 AUROC，仅略高于随机水平。这对于在金融和会计领域部署具有不确定性意识的代理具有直接影响。

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench：真实世界的模式复杂度打破了大语言模型结构化输出的保证

JSONSchemaBench 对 9,558 个真实世界的 JSON 模式进行了针对六种约束解码框架的测试，发现模式复杂度导致覆盖率从简单模式的 86% 崩塌至复杂模式的 3%，其中 XGrammar 静默输出了 38 个不合规结果，且没有任何框架能够涵盖所有 45 个 JSON Schema 特征类别。

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench：MCP 架构下真实世界金融工具使用的大语言模型代理基准测试

FinMCP-Bench 在 65 个 MCP 服务器支持的 613 个真实世界金融工具使用任务上评估了六个大语言模型——表现最好的模型在多轮任务中的精确匹配率仅为 3.08%，揭示了从单工具到多轮场景下 20 倍的性能崩塌。

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace：针对金融任务的 LLM 工具调用轨迹级评估

FinTrace 在 9 个指标上对 13 个大语言模型（LLM）进行了评估，涵盖了 800 条专家标注的金融任务轨迹。研究发现，前沿模型在工具选择方面表现强劲（F1 ~0.9），但在信息利用率（即代理对工具返回结果进行推理的步骤）方面得分仅为 3.23/5。

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench：评估大语言模型智能体在真实金融工具使用中的表现

FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合，在真实金融任务中对 LLM 智能体进行基准测试。研究发现，GPT-4o 保守的 22.7% 调用率带来的回答质量（CSS 0.670）高于 Qwen3-8B 激进的 87.1% 工具调用率（TIR），而所有测试模型的意图不匹配率均超过 50%。