Mike Thrift

Marketing Manager

87 篇博文查看所有作者

June 18, 2026·mike

τ²-bench：衡量对话式 AI 智能体中双重控制的成本

τ²-bench 将智能体基准测试扩展到双重控制设置，即 AI 和用户都在共享状态上调用工具——研究发现，活跃用户的参与使成功率降低了 18-25 个百分点，这对于与人类用户共享写入权限的 Beancount 智能体具有直接启示。

llm

automation

June 17, 2026·mike

WorkArena++：人类与 AI 智能体在复合型企业任务表现上 93% 的差距

WorkArena++ (NeurIPS 2024) 对跨越三个难度级别的 682 个复合型企业任务进行了基准测试。GPT-4o 仅解决了其中的 2.1%，而人类的解决率为 93.9%。该研究精准地揭示了当前 AI 智能体在处理隐性目标知识工作时失败的原因，以及这一差距对自主账务自动化的重大影响。

llm

automation

June 16, 2026·mike

GAIA 基准测试：衡量前沿 AI 智能体究竟能做些什么

GAIA 对三个难度级别的 466 个真实世界任务进行了基准测试；截至 2026 年年中，前沿智能体的得分达到了 74.55%，而人类为 92%，剩余的 Level 3 差距直接对应了 Beancount 账本自动化工作流中的多步协同挑战。

llm

machine-learning

June 15, 2026·mike

OSWorld：桌面 AI 智能体任务成功率仅为 12%，而人类成功率为 72%

OSWorld (NeurIPS 2024) 在 Ubuntu、Windows 和 macOS 的 369 个真实桌面任务中对多模态 AI 智能体进行了基准测试。结果显示，表现最好的模型（12.24%）与人类表现（72.36%）之间存在 60 个百分点的差距，且 75% 的失败归因于视觉运动接地错误，而非推理失败。

machine-learning

automation

June 14, 2026·mike

WebArena：包含 812 个任务的基准测试，衡量 Web 智能体真实的能与不能

GPT-4 仅完成了 WebArena 812 个现实网页任务中的 14.41%，而人类达到了 78.24%；主要的失败模式是误判不可行性（false infeasibility）——即保守地拒绝执行——这对于任何操作 Fava 或金融网页 UI 的智能体都有直接影响。

llm

automation

June 13, 2026·mike

WorkArena：大语言模型（LLM）网络智能体在真实企业知识工作中的表现

WorkArena 在 33 个真实的 ServiceNow 任务上对 LLM 网络智能体进行了基准测试——GPT-4o 总体得分达到 42.7%，但在列表过滤任务中得分为 0%，揭示了表单填写与结构化 UI 交互之间存在的巨大障碍，这直接对应了 Beancount 账本自动化的挑战。

llm

automation

June 12, 2026·mike

τ-bench：评估 AI 代理在现实世界工具调用领域的可靠性

τ-bench 表明，像 Claude 3.5 Sonnet 这样的顶级大语言模型在零售客户服务任务中，其 pass@1 分数从 0.692 下降到 pass@4 的 0.462 —— 这种一致性断崖直接影响到任何在 Beancount 账本上运行的回写代理。

llm

machine-learning

June 11, 2026·mike

Chain-of-Table：LLM 推理链中的演进表格

Chain-of-Table (ICLR 2024) 通过将表格本身作为演进的中间状态来改进 LLM 的表格推理能力。在 WikiTQ 数据集上达到了 67.31% 的准确率，而之前的基准为 61.48%。在超过 4,000 个 token 的大表格上，其优势达到了 +10.25 个百分点，且可直接应用于 Beancount 账本查询代理。

llm

machine-learning

June 10, 2026·mike

TableLlama：7B 开源模型在表格理解上能否媲美 GPT-4？

TableLlama 在 260 万个表格任务示例上对 Llama 2 (7B) 进行了微调，在列类型标注等结构化任务上击败了 GPT-4（F1 值 94 对 32），但在 WikiTQ 组合推理上落后 33 分——这为 7B 开源模型在当今金融 AI 领域的能力边界提供了一个经过校准的基准。

llm

machine-learning

June 9, 2026·mike

TAPAS：无需 SQL 的弱监督表格问答及其对 Beancount 的意义

TAPAS（Google Research, ACL 2020）通过选择单元格并应用标量聚合来回答表格问题，无需生成 SQL。本文分析了其架构、在 SQA 上 12 个百分点的准确率提升，以及为什么单元格选择范式适用于小型 Beancount 账本查询，但在大规模场景下会失效。

machine-learning

llm

June 8, 2026·mike

MAC-SQL：多智能体协作的 Text-to-SQL

MAC-SQL (COLING 2025) 使用三个专用智能体——用于模式缩减的 Selector、用于问题分解的 Decomposer 以及用于执行引导的 SQL 纠错的 Refiner——在 BIRD 基准测试上达到了 59.59% 的执行准确率；消融实验表明 Refiner 的贡献最大（+4.63 分），这对 Beancount 账本查询生成具有直接意义。

machine-learning

database

June 7, 2026·mike

DIN-SQL：用于 Text-to-SQL 的分解式上下文学习

DIN-SQL (NeurIPS 2023) 将文本转 SQL 分解为模式链接、复杂度分类和 SQL 生成阶段，在不进行微调的情况下，将 GPT-4 在 Spider 上的执行准确度从 67.4% 提升至 85.3% —— 这种分解策略也可以直接应用于 Beancount 的 BQL 查询语言的自然语言接口。

llm

database

显示第 25–36 篇，共 87 篇