跳到主要内容
Data Science

关于一切 Data Science

40 篇文章
Data science methods applied to financial datasets and accounting workflows

InvestorBench:金融交易决策中的大语言模型智能体基准测试

InvestorBench (ACL 2025) 在股票、加密货币和 ETF 交易的回测中,通过累计回报率和夏普比率(而非问答准确率)对 13 个大语言模型骨干进行了测试。Qwen2.5-72B 以 46.15% 的累计回报率荣登股票榜首;针对金融微调的模型在股票表现上反而不如预期。模型参数量比领域微调更能可靠地预测性能。

Atlas:检索器-阅读器联合预训练以 11B 参数击败 540B 参数的超大模型

Atlas (JMLR 2023) 在仅有 64 个训练样本的情况下,在 Natural Questions 上实现了 42.4% 的准确率——以 11B 参数击败了拥有 540B 参数的 PaLM 模型 3 个百分点。该模型通过联合预训练基于 Contriever 的稠密检索器和基于 T5 的 Fusion-in-Decoder 阅读器实现。本文分析涵盖了检索准确率限制、587GB 索引基础设施成本,以及对 Beancount 账本问答系统的影响。

大语言模型(LLM)对时间序列预测并无用处:NeurIPS 2024 对金融 AI 意味着什么

一篇 NeurIPS 2024 Spotlight 论文对三种基于 LLM 的时间序列预测方法(OneFitsAll、Time-LLM 和 CALF)进行了消融实验,发现移除语言模型在大多数情况下能提高准确度,且训练速度最高可提升 1,383 倍。对于 Beancount 余额预测等金融 AI 应用,轻量级的专用模型表现始终优于改造成的 LLM。

针对知识密集型 NLP 任务的检索增强生成

Lewis 等人在 NeurIPS 2020 发表的论文引入了混合 RAG 架构——由 BART-large 生成器和基于 2100 万个维基百科段落的 FAISS 索引检索器组成。该架构在 Natural Questions 上达到了 44.5 EM,并确立了参数化/非参数化分离的范式,这已成为当今大多数生产级人工智能系统的基础。本综述涵盖了 RAG-Sequence 与 RAG-Token 的权衡、检索崩溃故障模式,以及过时索引对于构建在仅追加 Beancount 账本之上的金融 AI 意味着什么。