Bean Labs Research Log

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster：基于大语言模型的表格理解自适应推理

TableMaster 是一个仅包含提示词的流水线，在 WikiTQ 基准测试中，使用 GPT-4o-mini 达到了 78.13% 的准确率，比 Chain-of-Table 高出 13 个百分点。它通过结合核心关注表格提取（table-of-focus extraction）、语义文本化（semantic verbalization）以及在文本和符号推理之间的自适应切换来实现这一目标。本文介绍了该架构对 Beancount 等财务账本 AI 智能体的意义。

Latest articles

AILLMFraud DetectionMachine LearningData ScienceBeancountAutomation

利用大语言模型进行零样本异常检测：GPT-4 在表格数据上的表现

GPT-4 在 ODDS 基准测试中，无需微调即可达到 74.1 的平均 AUROC，几乎与传统 ECOD 基准（75.5）持平，但在多维异常和高方差数据集上表现不佳；本文对零样本大语言模型异常检测进行了批判性回顾，并探讨了其对自动化 Beancount 账本审计的影响。

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA：基于完整 SEC 申报文件的长文本财务推理

DocFinQA 将 FinQA 精选的 700 字段落替换为完整的 123,000 字 SEC 申报文件，使上下文长度增加了 175 倍，这导致 GPT-4 在长文档上的准确率几乎减半。检索流水线在 HR@3 时有 45% 的概率无法找到正确的切片 —— 而长文本模型并不能替代检索。

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany：在真实企业任务中评估大语言模型智能体

TheAgentCompany 在包含 GitLab、OwnCloud 和 RocketChat 的模拟内网环境中测试了 175 个真实的职场任务。表现最好的模型（Gemini-2.5-Pro）仅完成了 30% 的任务，且每项任务成本高达 4 美元，这表明自主智能体在会计和财务工作流中仍远未达到可用水平。

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench：衡量对话式 AI 智能体中双重控制的成本

τ²-bench 将智能体基准测试扩展到双重控制设置，即 AI 和用户都在共享状态上调用工具——研究发现，活跃用户的参与使成功率降低了 18-25 个百分点，这对于与人类用户共享写入权限的 Beancount 智能体具有直接启示。

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++：人类与 AI 智能体在复合型企业任务表现上 93% 的差距

WorkArena++ (NeurIPS 2024) 对跨越三个难度级别的 682 个复合型企业任务进行了基准测试。GPT-4o 仅解决了其中的 2.1%，而人类的解决率为 93.9%。该研究精准地揭示了当前 AI 智能体在处理隐性目标知识工作时失败的原因，以及这一差距对自主账务自动化的重大影响。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

GAIA 基准测试：衡量前沿 AI 智能体究竟能做些什么

GAIA 对三个难度级别的 466 个真实世界任务进行了基准测试；截至 2026 年年中，前沿智能体的得分达到了 74.55%，而人类为 92%，剩余的 Level 3 差距直接对应了 Beancount 账本自动化工作流中的多步协同挑战。

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld：桌面 AI 智能体任务成功率仅为 12%，而人类成功率为 72%

OSWorld (NeurIPS 2024) 在 Ubuntu、Windows 和 macOS 的 369 个真实桌面任务中对多模态 AI 智能体进行了基准测试。结果显示，表现最好的模型（12.24%）与人类表现（72.36%）之间存在 60 个百分点的差距，且 75% 的失败归因于视觉运动接地错误，而非推理失败。