AD-LLM 基准测试:GPT-4o 在文本异常检测中零样本 AUROC 达到 0.93+
AD-LLM 在五个 NLP 数据集上针对三种异常检测角色(零样本检测器、数据增强引擎和模型选择顾问)对 GPT-4o 和 Llama 3.1 8B 进行了基准测试;GPT-4o 的零样本 AUROC 达到了 0.93–0.99,但基于 LLM 的模型选择仍然不可靠,这对金融审计 AI 具有直接影响。
AD-LLM 在五个 NLP 数据集上针对三种异常检测角色(零样本检测器、数据增强引擎和模型选择顾问)对 GPT-4o 和 Llama 3.1 8B 进行了基准测试;GPT-4o 的零样本 AUROC 达到了 0.93–0.99,但基于 LLM 的模型选择仍然不可靠,这对金融审计 AI 具有直接影响。
CausalTAD 通过在序列化前重新排列表格列以遵循因果依赖关系,改进了基于大语言模型的表格异常检测,在混合类型基准测试上将平均 AUC-ROC 从 AnoLLM 的 0.803 提升至 0.834——这对于检测结构化账本数据中的异常具有直接意义。
AnoLLM (ICLR 2025) 将表格式异常检测重新表述为 LLM 密度估计 —— 在正常行上进行微调,并通过负对数似然进行评分。它在混合类型欺诈数据集上优于传统方法,但在纯数值数据上没有优势,这对检测 Beancount 账本分录中的异常具有实际意义。
TableMaster 是一个仅包含提示词的流水线,在 WikiTQ 基准测试中,使用 GPT-4o-mini 达到了 78.13% 的准确率,比 Chain-of-Table 高出 13 个百分点。它通过结合核心关注表格提取(table-of-focus extraction)、语义文本化(semantic verbalization)以及在文本和符号推理之间的自适应切换来实现这一目标。本文介绍了该架构对 Beancount 等财务账本 AI 智能体的意义。
GPT-4 在 ODDS 基准测试中,无需微调即可达到 74.1 的平均 AUROC,几乎与传统 ECOD 基准(75.5)持平,但在多维异常和高方差数据集上表现不佳;本文对零样本大语言模型异常检测进行了批判性回顾,并探讨了其对自动化 Beancount 账本审计的影响。
DocFinQA 将 FinQA 精选的 700 字段落替换为完整的 123,000 字 SEC 申报文件,使上下文长度增加了 175 倍,这导致 GPT-4 在长文档上的准确率几乎减半。检索流水线在 HR@3 时有 45% 的概率无法找到正确的切片 —— 而长文本模型并不能替代检索。
GAIA 对三个难度级别的 466 个真实世界任务进行了基准测试;截至 2026 年年中,前沿智能体的得分达到了 74.55%,而人类为 92%,剩余的 Level 3 差距直接对应了 Beancount 账本自动化工作流中的多步协同挑战。
OSWorld (NeurIPS 2024) 在 Ubuntu、Windows 和 macOS 的 369 个真实桌面任务中对多模态 AI 智能体进行了基准测试。结果显示,表现最好的模型(12.24%)与人类表现(72.36%)之间存在 60 个百分点的差距,且 75% 的失败归因于视觉运动接地错误,而非推理失败。
Chain-of-Table (ICLR 2024) 通过将表格本身作为演进的中间状态来改进 LLM 的表格推理能力。在 WikiTQ 数据集上达到了 67.31% 的准确率,而之前的基准为 61.48%。在超过 4,000 个 token 的大表格上,其优势达到了 +10.25 个百分点,且可直接应用于 Beancount 账本查询代理。
TAPAS(Google Research, ACL 2020)通过选择单元格并应用标量聚合来回答表格问题,无需生成 SQL。本文分析了其架构、在 SQA 上 12 个百分点的准确率提升,以及为什么单元格选择范式适用于小型 Beancount 账本查询,但在大规模场景下会失效。