跳到主要内容

InvestorBench:金融交易决策中的大语言模型智能体基准测试

· 阅读需 7 分钟
Mike Thrift
Mike Thrift
Marketing Manager

大多数金融人工智能基准测试都在测试大语言模型是否能回答有关金融数据的问题。InvestorBench 提出了一个更难的问题:大语言模型智能体能赚钱吗?这是我看到的第一个将 13 个不同的骨干模型投入到股票、加密货币和 ETF 的实际(回测)交易任务中的基准测试,衡量的是累计回报率和夏普比率,而非问答准确率。这种从理解到决策的转变正是 Bean Labs 所需要的视角。

论文

2026-06-02-investorbench-llm-agent-financial-decision-making

InvestorBench(Li 等人,arXiv:2412.18174,ACL 2025)引入了一个基准测试及配套的智能体框架,用于评估大语言模型在金融交易中的表现。该智能体架构是模块化的——一个大脑(大语言模型骨干)、一个将市场数据转换为文本的感知层,以及一个具有三个衰减窗口的分层记忆系统:每日新闻为 14 天,季度报告为 90 天,年度申报文件为 365 天。在决策时,智能体会跨所有三个层进行检索,并推理出买入/卖出/持有的动作。

该基准测试涵盖了三个单资产任务系列。股票交易使用了七只股票(MSFT、JNJ、TSLA、AAPL 等),测试时间为 2020 年 10 月至 2021 年 5 月。加密货币涵盖了 2023 年 4 月至 11 月的比特币和以太坊。ETF 交易使用了 2020 年 1 月至 9 月的 NIFTY 数据集。每个任务都提供 OHLCV 数据、带有情感标签的新闻文章以及 SEC 申报文件或等效文件。主要指标是累计回报率 (CR) 和夏普比率 (SR)。

核心观点

  • 分层记忆设计(14/90/365 天衰减窗口)反映了专业分析师处理信息的实际方式:每日价格波动、季度收益和年度战略背景具有不同的时间权重。
  • 模型参数量是性能最强的预测指标。参数量超过 67B 的开源模型在股票累计回报率和夏普比率上可以与闭源模型相媲美,而较小的模型则明显落后。Qwen2.5-72B 以 46.15% 的累计回报率和 1.276 的夏普比率荣登股票榜首,而买入持有基准的累计回报率为 34.10%,夏普比率为 0.732。
  • 领域特定的微调在股票上适得其反。Palmyra-Fin-70B——一个金融预训练模型——在股票交易中的累计回报率平均为 -0.45%,夏普比率为 0.031,差于所有测试的通用模型。Palmyra-Fin-70B 在 ETF 上表现良好(24.76% CR,1.152 SR),作者将其归因于 ETF 任务需要与其训练相一致的长线推理。
  • 闭源模型(GPT-4、GPT-4o、GPT-o1-preview)在股票上的累计回报率平均为 36.14%,夏普比率为 0.82,稳高于买入持有策略,但并不显著。它们的更大优势体现在加密货币上,比特币的累计回报率达到了 23.60%,而买入持有为 21.82%,开源模型平均仅为 14.14%。
  • 该基准测试是开源的,并且包含了评估工具——考虑到重现交易实验的难度,这是一个非常有实际用途的贡献。

哪些站得住脚,哪些站不住

分层记忆架构是论文中最有原则的设计选择,而且其表现优于纯基于相似性的检索这一实证结果是合理且有用的。参数量与性能的相关性也是一个明确的结果。

主要弱点在于测试期是短期的历史回测,而非实盘交易。股票测试期(2020 年 10 月至 2021 年 5 月)恰逢有记录以来最不寻常的牛市之一:新冠疫情后的刺激措施、散户炒股狂潮以及接近零的利率推动了股市的全面上涨。在约七个月的时间里,七只股票的组合通过买入持有策略就获得了 34.10% 的收益。大语言模型智能体在此基础上的改进是反映了真正的超额收益(alpha),还是仅仅是在上涨市场中采取了更积极的仓位,无法从给定的数据中确定。同样,ETF 测试期跨越了新冠疫情的崩盘和复苏——这是一个如此异常的时期,以至于任何在 2020 年 3 月恰好采取防御姿态的模型看起来都会极具先见之明。

Palmyra-Fin-70B 的异常表现——在股票上惨不忍睹,在 ETF 上表现强劲——没有得到令人满意的解释。如果领域微调能让模型转向更长的时间维度,那么这应该也会在股票结果中体现出来。事实并非如此,这表明该结果可能是短期回测窗口中的噪声,而非原则性的发现。

此外,也没有与传统的算法基准(动量、均值回归、因子模型)进行对比。仅使用买入持有作为被动基准设定的门槛太低。如果在这些时期,一个简单的移动平均线交叉策略就能击败买入持有(在趋势市场中通常如此),那么智能体的对比看起来就不那么令人印象深刻了。

最后,该基准测试仅测试单资产决策。真正的投资组合管理需要考虑相关性头寸管理、再平衡和风险聚合,而单资产任务无法捕捉到这些。

为什么这对金融人工智能很重要

分层记忆架构可以直接转化到 Beancount 中。账本智能体需要同时在不同的时间尺度上进行推理:今天导入会话中发生了什么(浅层),一个季度的交易揭示了怎样的预算情况(中层),以及多年的模式说明了怎样的账户健康状况(深层)。InvestorBench 的 14/90/365 天分层提供了一个值得借鉴的具体设计模板,即使交易背景与记账不同。

Palmyra-Fin-70B 的发现也为 Beancount 的微调工作敲响了警钟。一个在金融文本上进行过大量训练的模型并不会自动做出更好的智能体决策——金融语言的流畅度与金融推理能力之间的差距是客观存在的。如果 Bean Labs 曾针对 Beancount 语法和会计规则微调模型,那么智能体评估必须测试决策质量,而不仅仅是输出格式。

该基准测试缺乏回写安全性评估,这为 Bean Labs 提供了一个填补空白的机会。InvestorBench 智能体只会亏钱;而 Beancount 智能体可能会破坏账本。评估框架需要一个不可逆性维度,而交易基准测试没有理由包含这一维度。

延伸阅读

  • FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu et al., arXiv:2311.07743) —— InvestorBench 所扩展的分层记忆架构;阅读原始设计可以弄清楚 InvestorBench 实际上增加了什么。
  • TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) —— 探讨了基于辩论的多智能体交易,与上周日志中的单智能体结果形成了鲜明对比。
  • StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) —— 据报道,该研究在前瞻性的实时市场数据而非历史回测上评估智能体;解决了我在本文中提出的生存偏误担忧。