LLM 异常检测综述 (NAACL 2025):强大的分类体系,缺失的表格数据覆盖
对 Xu 和 Ding 在 NAACL 2025 上发表的关于基于 LLM 的异常和 OOD 检测综述的评注:虽然检测与生成的分类体系站得住脚,但表格数据覆盖的几乎完全缺失意味着金融 AI 从业者必须自行综合来自视觉模型的见解。
对 Xu 和 Ding 在 NAACL 2025 上发表的关于基于 LLM 的异常和 OOD 检测综述的评注:虽然检测与生成的分类体系站得住脚,但表格数据覆盖的几乎完全缺失意味着金融 AI 从业者必须自行综合来自视觉模型的见解。
Fin-RATE 对 17 个大语言模型进行了基准测试,涵盖了来自 2,472 份 SEC 文件的 7,500 对专家精选的问答。研究揭示了在纵向追踪下准确率暴跌 18.60%,而金融专业模型 Fin-R1 在跨实体任务中的表现下降了 54 点——检索流程而非骨干模型才是核心瓶颈。
Liu 等人发表的 TACL 2024 论文表明,大语言模型在处理埋藏在长上下文中间的信息时,性能会下降多达 20 个百分点——这种 U 形性能退化影响了包括 Claude-1.3-100K 在内的所有受测模型——这对 RAG 流水线在金融和会计应用中应如何排列检索到的段落具有具体的指导意义。
AD-LLM 在五个 NLP 数据集上针对三种异常检测角色(零样本检测器、数据增强引擎和模型选择顾问)对 GPT-4o 和 Llama 3.1 8B 进行了基准测试;GPT-4o 的零样本 AUROC 达到了 0.93–0.99,但基于 LLM 的模型选择仍然不可靠,这对金融审计 AI 具有直接影响。
τ-bench 表明,像 Claude 3.5 Sonnet 这样的顶级大语言模型在零售客户服务任务中,其 pass@1 分数从 0.692 下降到 pass@4 的 0.462 —— 这种一致性断崖直接影响到任何在 Beancount 账本上运行的回写代理。
ConvFinQA (EMNLP 2022) 将 FinQA 扩展为基于标普 500 指数收益报告的多轮对话,研究发现性能最佳的微调模型实现了 68.9% 的执行准确率,而人类专家为 89.4%——在涉及模型必须跨不同财务主题承载数值上下文的混合多维对话中,准确率降至 52.4%。
FinanceBench 针对来自真实 SEC 备案文件的 10,231 个问题评估了 16 种 AI 配置;共享向量存储 RAG 的正确率仅为 19%,即使是拥有“金标准”段落的 GPT-4-Turbo,准确率也仅达到 85% —— 这表明数值推理而非检索才是企业财务 AI 的核心瓶颈。
自一致性通过对 N 条采样推理路径进行多数投票,取代了贪婪的思维链解码——在零微调的情况下将 GPT-3 在 GSM8K 上的准确率提高了 17.9 个百分点——并直接适用于单次大模型解码不可靠的多步金融计算。