33 篇博文含有标签「Plain-Text Accounting」

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

面向 LLM 智能体的不确定性感知委派：何时从小型模型切换到大型模型

ReDAct 默认运行小型模型，仅在 Token 级困惑度显示不确定性时才上报给昂贵的大型模型。在匹配或超过 GPT-5.2 准确率的同时，实现了 64% 的成本节省 —— 这一模式可直接应用于 Beancount 交易分类智能体。

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands：AI 软件代理开放平台及其对财务自动化的意义

OpenHands 是一个采用 MIT 许可证、基于 Docker 沙箱的代理平台，其中 CodeAct 在 SWE-Bench Lite 上达到了 26% 的成绩——这是一个发人深省的基准测试，它确立了 AI 代理如今能够可靠完成的任务范围，以及为什么首批富有成效的财务部署应当是严格限制范围的，而非完全自主的。

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLM 在 Beancount DSL 生成中得分仅为 2.3%：LLMFinLiteracy 基准测试

LLMFinLiteracy 基准测试发现，五个约 7B 参数的权重开放模型生成完全正确的 Beancount 交易的成功率仅为 2.3%。失败原因集中在会计推理而非语法上，这表明“编译器在环”反馈是构建可靠回写代理的关键缺失环节。

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster：基于大语言模型的表格理解自适应推理

TableMaster 是一个仅包含提示词的流水线，在 WikiTQ 基准测试中，使用 GPT-4o-mini 达到了 78.13% 的准确率，比 Chain-of-Table 高出 13 个百分点。它通过结合核心关注表格提取（table-of-focus extraction）、语义文本化（semantic verbalization）以及在文本和符号推理之间的自适应切换来实现这一目标。本文介绍了该架构对 Beancount 等财务账本 AI 智能体的意义。

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench：衡量对话式 AI 智能体中双重控制的成本

τ²-bench 将智能体基准测试扩展到双重控制设置，即 AI 和用户都在共享状态上调用工具——研究发现，活跃用户的参与使成功率降低了 18-25 个百分点，这对于与人类用户共享写入权限的 Beancount 智能体具有直接启示。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

GAIA 基准测试：衡量前沿 AI 智能体究竟能做些什么

GAIA 对三个难度级别的 466 个真实世界任务进行了基准测试；截至 2026 年年中，前沿智能体的得分达到了 74.55%，而人类为 92%，剩余的 Level 3 差距直接对应了 Beancount 账本自动化工作流中的多步协同挑战。

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena：大语言模型（LLM）网络智能体在真实企业知识工作中的表现

WorkArena 在 33 个真实的 ServiceNow 任务上对 LLM 网络智能体进行了基准测试——GPT-4o 总体得分达到 42.7%，但在列表过滤任务中得分为 0%，揭示了表单填写与结构化 UI 交互之间存在的巨大障碍，这直接对应了 Beancount 账本自动化的挑战。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench：评估 AI 代理在现实世界工具调用领域的可靠性

τ-bench 表明，像 Claude 3.5 Sonnet 这样的顶级大语言模型在零售客户服务任务中，其 pass@1 分数从 0.692 下降到 pass@4 的 0.462 —— 这种一致性断崖直接影响到任何在 Beancount 账本上运行的回写代理。

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table：LLM 推理链中的演进表格

Chain-of-Table (ICLR 2024) 通过将表格本身作为演进的中间状态来改进 LLM 的表格推理能力。在 WikiTQ 数据集上达到了 67.31% 的准确率，而之前的基准为 61.48%。在超过 4,000 个 token 的大表格上，其优势达到了 +10.25 个百分点，且可直接应用于 Beancount 账本查询代理。