InvestorBench: 金融取引の意思決定におけるLLMエージェントのベンチマーク評価
ほとんどの金融AIベンチマークは、LLMが金融データに関する質問に答えられるかどうかをテストします。InvestorBenchは、より困難な問いを投げかけます:LLMエージェントはお金を稼げるのか?これは、株式、仮想通貨、ETFにわたる実際の(バックテストによる)取引タスクに13種類の異なるバックボーンモデルを投入し、QAの正解率ではなく累積収益率とシャープ・レシオを測定した、私が知る限り最初のベンチマークです。理解から意思決定へのこのシフトは、Bean Labsにとって正しい枠組みです。
論文の概要
InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) は、金融取引におけるLLMの評価のためのベンチマークと、付随するエージェント・ フレームワークを導入しています。エージェント・アーキテクチャはモジュール式で、ブレイン(LLMバックボーン)、市場データをテキストに変換する知覚(Perception)レイヤー、そして3つの減衰ウィンドウを持つ階層型メモリ・システムで構成されています。減衰ウィンドウは、日次ニュース用の14日間、四半期報告書用の90日間、年次報告書用の365日間です。意思決定時、エージェントはこれら3つのレイヤーすべてから情報を取得し、買い・売り・維持(ホールド)のアクションに向けて推論を行います。
このベンチマークは、3つの単一資産タスクファミリーをカバーしています。株式取引では、2020年10月から2021年5月までテストされた7つの銘柄(MSFT、JNJ、TSLA、AAPLなど)を使用します。仮想通貨は、2023年4月から11月までのビットコインとイーサリアムを対象としています。ETF取引は、2020年1月から9月までのNIFTYデータセットを使用します。各タスクでは、OHLCVデータ、感情ラベル付きのニュース記事、SEC提出書類またはそれに相当するデータが提供されます。主な指標は、累積収益率(CR)とシャープ・レシオ(SR)です。
主要なアイデア
- 階層型メモリ設計(14/90/365日の減衰ウィンドウ)は、プロのアナリストが実際に情報を扱う方法を反映しています。日々の価格変動、四半期決算、年次の戦略的文脈は、それぞれ異なる時間的な重みを持ちます。
- モデルの規模が、パフォーマン スの最も強力な予測因子です。67Bパラメータ以上のオープンソースモデルは、株式の累積収益率(CR)とシャープ・レシオ(SR)において商用モデルに匹敵し、小規模なモデルは大きく遅れをとっています。Qwen2.5-72Bは、株式リーダーボードでCR 46.15%、SR 1.276を記録し、バイ・アンド・ホールド(買い持ち戦略)のベースラインであるCR 34.10%、SR 0.732を上回り、首位となりました。
- ドメイン特化型の微調整は、株式において逆効果となります。金融向けに事前学習されたモデルであるPalmyra-Fin-70Bは、株式取引において平均CR -0.45%、SR 0.031となり、テストされたすべての汎用モデルよりも悪い結果となりました。Palmyra-Fin-70BはETFでは良好な成績(CR 24.76%、SR 1.152)を収めましたが、著者らはこれを、ETFタスクがその学習内容に合致した、より長期的な推論を必要とするためだと分析しています。
- 商用モデル(GPT-4, GPT-4o, GPT-o1-preview)は、株式で平均CR 36.14%、SR 0.82を記録し、バイ・アンド・ホールドを確実に上回りましたが、劇的な差ではありませんでした。商用モデルの真価は仮想通貨で発揮され、BTCのCRで23.60%を達成しました(バイ・アンド・ホールドは21.82%)。対してオープンソースモデルは平均14.14%でした。
- このベンチマークはオープンソースであり、評価ツールも含まれています。取引実験の再現がいかに困難であるかを考えると、これは実用的に有用な貢献です。