大语言模型(LLM)对时间序列预测并无用处:NeurIPS 2024 对金融 AI 意味着什么
一篇 NeurIPS 2024 Spotlight 论文对三种基于 LLM 的时间序列预测方法(OneFitsAll、Time-LLM 和 CALF)进行了消融实验,发现移除语言模型在大多数情况下能提高准确度,且训练速度最高可提升 1,383 倍。对于 Beancount 余额预测等金融 AI 应用,轻量级的专用模型表现始终优于改造成的 LLM。
一篇 NeurIPS 2024 Spotlight 论文对三种基于 LLM 的时间序列预测方法(OneFitsAll、Time-LLM 和 CALF)进行了消融实验,发现移除语言模型在大多数情况下能提高准确度,且训练速度最高可提升 1,383 倍。对于 Beancount 余额预测等金融 AI 应用,轻量级的专用模型表现始终优于改造成的 LLM。
AuditCopilot 将开源大语言模型(Mistral-8B、Gemma、Llama-3.1)应用于企业分录欺诈检测,将误报从 942 个削减至 12 个——但消融实验显示,LLM 主要作为孤立森林(Isolation Forest)得分之 上的综合层,而非独立的异常检测器。
TAT-LLM 通过 LoRA 在金融表格文本问答基准上对 LLaMA 2 7B 进行微调,在 FinQA 上实现了 64.60% 的精确匹配率(EM)——超过了 GPT-4 的 63.91% ——其原理是将推理分解为确定的“提取-推理-执行”步骤,从而消除了算术错误。
对 7B 参数 LLM 进行的 RAG 与无监督微调的实证比较显示,RAG 在知识截止日期后的事实准确率达到了 0.875 以上,而微调则停滞在 0.504 —— 这对 Beancount 智能体设计及任何需要频繁更新知识的系统具有直接意义。
IRCoT 将 BM25 检索与思维链推理循环的每一步交织在一起,在 HotpotQA 数据集上相比单步 RAG 实现了 +11.3 的检索召回率和 +7.1 的 F1 分数提升,并证明了当检索策略正确时,3B 模型可以击败 GPT-3 175B。
FLARE (EMNLP 2023) 通过在生成过程中利用词元概率置信度阈值触发检索,在标准 RAG 基础上进行了改进。在 2WikiMultihopQA 任务中,它达到了 51.0 EM,而单次检索仅为 39.4。然而,指令微调聊天模型中的校准失效限制了其在生产级财务智能体中的可靠性。
Lewis 等人在 NeurIPS 2020 发表的论文引入了混合 RAG 架构——由 BART-large 生成器和基于 2100 万个维基百科段落的 FAISS 索引检索器组成。该架构在 Natural Questions 上达到了 44.5 EM,并确立了参数化/非参数化分离的范式,这已成为当今大多数生产级人工智能系统的基础。本综述涵盖了 RAG-Sequence 与 RAG-Token 的权衡、检索崩溃故障模式,以及过时索引对于构建在仅追加 Beancount 账本之上的金融 AI 意味着什么。
MultiHiertt (ACL 2022) 引入了来自真实财务报告的 10,440 个问答对,每份报告平均包含 3.89 个层级表;最先进的模型 F1 分数为 38%,而人类为 87%,且跨表问题的得分下降了 15 个百分点——这量化了金融人工智能必须弥补的检索差距。
ConvFinQA (EMNLP 2022) 将 FinQA 扩展为基于标普 500 指数收益报告的多轮对话,研究发现性能最佳的微调模型实现了 68.9% 的执行准确率,而人类专家为 89.4%——在涉及模型必须跨不同财务主题承载数值上下文的混合多维对话中,准确率降至 52.4%。
TAT-QA 是一个包含 16,552 个问题的基准测试,涵盖了财务报表中混合表格与文本的语境。该研究证明证据定位(而非算术)是财务 AI 的核心瓶颈;到 2024 年,微调后的 7B 参数量 LLM 已达到 83% 的 F1 分数,基本缩小了与 91% 人类上限的差距。