PHANTOM (NeurIPS 2025):衡量金融文档中的大语言模型幻觉检测
PHANTOM (NeurIPS 2025) 提出了一个我在信任大语言模型处理 Beancount 账本之前最想得到解答的问题:模型真的能辨别它是否在金融文档上胡编乱造吗?结果并不乐观,其方法论的选择值得仔细研究。
论文内容
%EF%BC%9A%E8%A1%A1%E9%87%8F%E9%87%91%E8%9E%8D%E6%96%87%E6%A1%A3%E4%B8%AD%E7%9A%84%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%B9%BB%E8%A7%89%E6%A3%80%E6%B5%8B)
Lanlan Ji、Dominic Seyler、Gunkirat Kaur、Manjunath Hegde、Koustuv Dasgupta 和 Bing Xiang(大多隶属于 IBM Research)专门构建了 PHANTOM,以填补通用幻觉基准测试留下的空白。标准的幻觉基准测试通常测试简短、干净的上下文和格式良好的查询。而金融文档则恰恰相反:一份 10-K 备案文件通常超过 100,000 tokens,数字精确到分,且语言充斥着具有非显而易见含义的领域特定术语(如 EBITDA、递延收入、商誉减值)。核心贡献 是一个由真实 SEC 备案文件(10-K 年度报告、497K 共同基金备案文件和 DEF 14A 委托投票书)构建的“查询-回答-文档”三元组数据集,其中每个回答要么是正确的,要么是故意制造的幻觉,并经过人工标注者的验证。随后,该基准测试扩展了种子集,以测试从约 500 tokens 到 30,000 tokens 的上下文长度,并系统地改变相关信息出现的位置:上下文的开头、中间或结尾。
核心观点
- 该任务是幻觉检测,而非幻觉生成:给定一个文档片段和一个回答,分类该回答是有据可查的还是虚构的。这比生成有据可查的回答任务更简单,但模型表现依然挣扎。
- 上下文长度影响巨大。种子集使用约 500 tokens 的片段。随着上下文增加到 10K、20K 和 30K tokens,所有模型的性能都显著下降——这与“迷失在中间 (Lost in the Middle)”的发现(arXiv:2307.03172)一致,即当相关信息埋藏在长上下文中间时,大语言模型的性能会退化。
- Llama-3.3-70B-Instruct 在种子数据集上获得了 0.916 的最高 F1 分数——但作者指出,该模型也被用于生成种子数据集,这种循环性问题夸大了得分。
- Qwen3-30B-A3B-Thinking 获得了 F1 = 0.882,优于所有测试过的闭源模型。其非思考型的 Instruct 兄弟模型得分为 0.848,这表明测试时计算(思维链推理)在此具有实际价值。
- 小模型 (Qwen-2.5-7B) 的得分仅略高于随机猜测。在长篇金融文档上进行幻觉检测似乎需要相当大的模型容量。
- 在 PHANTOM 数据上对开源模型进行微调可显著提高其检测率——论文认为这是从业者最有希望的研究方向。
有效之处与不足之处
构建方法严谨。对种子集进行人工标注,随后在上下文长度和放置位置上进行系统扩展,赋予了 PHANTOM 大多数金融 NLP 数据集所缺乏的结构。尤其是位置变化非常有用:它让你能够衡量模型的失败是因为总上下文长度,还是因为已在许多大语言模型架构中证实的“U 型注意力模式”(开头和结尾强,中间弱)。
Llama-3.3-70B 的循环性是一个真实存在的问题,作者勇于指出来值得称赞——但也意味着该基准测试的最高结果是无法解释的。对于从业者来说,更有参考价值的数字可能是 Qwen3 和 Phi-4 的结果,因为这些模型不存在此类污染。
我希望论文能提供:随着上下文长度从 500 增加到 30,000 tokens 的实际退化曲线。论文证实了退化确实发生且位置至关重要,但我无法从现有材料中提取具体的百分点降幅。这种粒度对于决定在生产系统中设置多大的检索片段(chunk size)至关重要。同样值得注意的是,该基准测试仅测试模型是否能检测出所提供回答中的幻觉,而不测试模型在被要求从零开始生成回答时是否会产生幻觉。这是相关但不同的失效模式,一个在检测上得分很高的系统在生成上仍可能表现糟糕。
最后,该数据集涵盖了三种 SEC 备案文件。虽然这涵盖了金融文档领域的很大一部分,但它遗漏了业绩电话会议记录、审计报告、贷款协议中的限制性条款,以及填满 Beancount 账本的那种临时分录描述。能否推广到这些格式 仍是一个悬而未决的问题。
为什么这对金融 AI 至关重要
对于我能想象到的基于 Beancount 构建的任何自主会计智能体来说,幻觉都是信任问题的核心。回写场景是最糟糕的情况:智能体读取银行对账单,对交易进行分类,并发布日记账分录。如果它在收款人、金额或账户代码上产生幻觉,账本就会在无声无息中出错。PHANTOM 是我见过的第一个尝试衡量模型在现实文档条件下能否捕获此类错误的基准测试。
小模型 (7B) 在幻觉检测上的表现接近随机,这一发现与 Bean Labs 直接相关:如果我们运行的是设备端或低延迟智能体,我们不能依赖 7B 模型来自我验证其输出。我们需要更大规模的验证模型、外部检索检查,或者采用能使幻觉在结构上不可能发生的约束输出格式(例如,在发布分录前强制模型引用源文档中的行号)。微调的结果令人鼓舞:在 PHANTOM 风格的数据上进行领域特定适配似乎可以恢复大部分检测能力,即使对于较小的模型也是如此,这表明微调后的验证器可能是回写流水线中的一个实用组件。
延伸阅读
- SelfCheckGPT (Manakul et al., arXiv:2303.08896) —— 无需参考文档的基于采样的幻觉检测;是对 PHANTOM 基于参考文档方法的补充,且可能更好地推广到开放式的账本注释。
- "Lost in the Middle" (Liu et al., arXiv:2307.03172) —— 关于长上下文中位置注意力退化的奠基性论文;PHANTOM 的位置测试结果本质上是该理论在金融领域的应用复现。
- FinanceBench (Islam et al., 2023) —— 针对 SEC 备案文件的问答基准测试,显示带有检索功能的 GPT-4 Turbo 在 150 个案例样本中失败率为 81%;与 PHANTOM 配合使用,可作为 PHANTOM 检测侧视角的生成侧补充。
