跳到主要内容

Bean Labs Research Log

TableMaster:基于大语言模型的表格理解自适应推理

TableMaster 是一个仅包含提示词的流水线,在 WikiTQ 基准测试中,使用 GPT-4o-mini 达到了 78.13% 的准确率,比 Chain-of-Table 高出 13 个百分点。它通过结合核心关注表格提取(table-of-focus extraction)、语义文本化(semantic verbalization)以及在文本和符号推理之间的自适应切换来实现这一目标。本文介绍了该架构对 Beancount 等财务账本 AI 智能体的意义。

Latest articles

WorkArena++:人类与 AI 智能体在复合型企业任务表现上 93% 的差距

WorkArena++ (NeurIPS 2024) 对跨越三个难度级别的 682 个复合型企业任务进行了基准测试。GPT-4o 仅解决了其中的 2.1%,而人类的解决率为 93.9%。该研究精准地揭示了当前 AI 智能体在处理隐性目标知识工作时失败的原因,以及这一差距对自主账务自动化的重大影响。