InvestorBench: 金融取引の意思決定におけるLLMエージェントのベンチマーク評価

2026年6月2日 · 約9分

Mike Thrift

Marketing Manager

ほとんどの金融AIベンチマークは、LLMが金融データに関する質問に答えられるかどうかをテストします。InvestorBenchは、より困難な問いを投げかけます：LLMエージェントはお金を稼げるのか？これは、株式、仮想通貨、ETFにわたる実際の（バックテストによる）取引タスクに13種類の異なるバックボーンモデルを投入し、QAの正解率ではなく累積収益率とシャープ・レシオを測定した、私が知る限り最初のベンチマークです。理解から意思決定へのこのシフトは、Bean Labsにとって正しい枠組みです。

論文の概要

2026-06-02-investorbench-llm-agent-financial-decision-making

InvestorBench (Li et al., arXiv:2412.18174, ACL 2025) は、金融取引におけるLLMの評価のためのベンチマークと、付随するエージェント・フレームワークを導入しています。エージェント・アーキテクチャはモジュール式で、ブレイン（LLMバックボーン）、市場データをテキストに変換する知覚（Perception）レイヤー、そして3つの減衰ウィンドウを持つ階層型メモリ・システムで構成されています。減衰ウィンドウは、日次ニュース用の14日間、四半期報告書用の90日間、年次報告書用の365日間です。意思決定時、エージェントはこれら3つのレイヤーすべてから情報を取得し、買い・売り・維持（ホールド）のアクションに向けて推論を行います。

このベンチマークは、3つの単一資産タスクファミリーをカバーしています。株式取引では、2020年10月から2021年5月までテストされた7つの銘柄（MSFT、JNJ、TSLA、AAPLなど）を使用します。仮想通貨は、2023年4月から11月までのビットコインとイーサリアムを対象としています。ETF取引は、2020年1月から9月までのNIFTYデータセットを使用します。各タスクでは、OHLCVデータ、感情ラベル付きのニュース記事、SEC提出書類またはそれに相当するデータが提供されます。主な指標は、累積収益率（CR）とシャープ・レシオ（SR）です。

主要なアイデア

階層型メモリ設計（14/90/365日の減衰ウィンドウ）は、プロのアナリストが実際に情報を扱う方法を反映しています。日々の価格変動、四半期決算、年次の戦略的文脈は、それぞれ異なる時間的な重みを持ちます。
モデルの規模が、パフォーマンスの最も強力な予測因子です。67Bパラメータ以上のオープンソースモデルは、株式の累積収益率（CR）とシャープ・レシオ（SR）において商用モデルに匹敵し、小規模なモデルは大きく遅れをとっています。Qwen2.5-72Bは、株式リーダーボードでCR 46.15%、SR 1.276を記録し、バイ・アンド・ホールド（買い持ち戦略）のベースラインであるCR 34.10%、SR 0.732を上回り、首位となりました。
ドメイン特化型の微調整は、株式において逆効果となります。金融向けに事前学習されたモデルであるPalmyra-Fin-70Bは、株式取引において平均CR -0.45%、SR 0.031となり、テストされたすべての汎用モデルよりも悪い結果となりました。Palmyra-Fin-70BはETFでは良好な成績（CR 24.76%、SR 1.152）を収めましたが、著者らはこれを、ETFタスクがその学習内容に合致した、より長期的な推論を必要とするためだと分析しています。
商用モデル（GPT-4, GPT-4o, GPT-o1-preview）は、株式で平均CR 36.14%、SR 0.82を記録し、バイ・アンド・ホールドを確実に上回りましたが、劇的な差ではありませんでした。商用モデルの真価は仮想通貨で発揮され、BTCのCRで23.60%を達成しました（バイ・アンド・ホールドは21.82%）。対してオープンソースモデルは平均14.14%でした。
このベンチマークはオープンソースであり、評価ツールも含まれています。取引実験の再現がいかに困難であるかを考えると、これは実用的に有用な貢献です。

妥当な点とそうでない点

階層型メモリ・アーキテクチャはこの論文で最も理にかなった設計上の選択であり、それが純粋な類似性ベースの検索を上回るという経験的な知見は、妥当であり有用です。規模とパフォーマンスの相関も、明快な結果です。

主な弱点は、テスト期間が短い過去のバックテストであり、ライブ取引ではないことです。株式の期間（2020年10月〜2021年5月）は、記録上最も特異な強気相場の一つと重なっています。コロナ後の刺激策、ミーム株の狂乱、そしてほぼゼロの金利が、広範な株価上昇を牽引しました。7銘柄のバスケットに対するバイ・アンド・ホールドは、約7ヶ月で34.10%の収益を上げました。その数字を上回るLLMエージェントの改善が、真のアルファ（超過収益）を反映しているのか、それとも上昇相場において単により積極的なポジションを取っただけなのかは、提供されたデータからは判断できません。同様に、ETFの期間はコロナショックとその回復期をカバーしており、あまりに異常な体制であるため、2020年3月にたまたま防御的な姿勢をとったモデルは、あたかも先見の明があるように見えてしまいます。

Palmyra-Fin-70Bの異常（株式では壊滅的、ETFでは強力）については、十分な説明がなされていません。もしドメイン特化の微調整がモデルをより長期的な時間軸へと再調整するのであれば、それは株式の結果にも現れるはずです。そうならないという事実は、この結果が原理的な発見というよりも、短いバックテスト期間におけるノイズである可能性を示唆しています。

また、伝統的なアルゴリズムによるベースライン（モメンタム、平均回帰、ファクターモデル）との比較もありません。パッシブなベースラインとしてバイ・アンド・ホールドのみを使用することは、ハードルが低すぎます。もし単純な移動平均のクロスオーバーがこれらの期間でバイ・アンド・ホールドを上回るのであれば（トレンド相場ではよくあることです）、エージェントの比較ははるかに印象の薄いものになります。

最後に、このベンチマークは単一資産の意思決定のみをテストしています。実際のポートフォリオ管理には、相関関係に基づいたポジションサイジング、リバランス、リスク集約が必要ですが、単一資産タスクではこれらを捉えることができません。

なぜこれが金融AIにとって重要なのか

階層型メモリ・アーキテクチャは、Beancountに直接応用できます。台帳エージェントは、今日のインポート・セッションで何が起こったか（浅い層）、四半期の取引が予算について何を明らかにしているか（中間層）、そして数年にわたるパターンが口座の健全性について何を物語っているか（深い層）といった、異なる時間軸で同時に推論を行う必要があります。InvestorBenchの14/90/365日のレイヤー構造は、取引の文脈が帳簿付けとは異なるとしても、借りる価値のある具体的な設計テンプレートを提供しています。

Palmyra-Fin-70Bに関する知見は、Beancountの微調整の試みに対する警告でもあります。金融テキストで広範に訓練されたモデルが、自動的に優れたエージェントの意思決定を行えるわけではありません。金融言語の流暢さと、金融的推論の能力の間には明確なギャップが存在します。もしBean LabsがBeancountの構文や会計規則に基づいてモデルを微調整することがあれば、エージェントの評価では出力形式だけでなく、意思決定の質をテストしなければなりません。

このベンチマークに「書き戻しの安全性（write-back safety）」の評価が欠けていることは、Bean Labsが埋めるべき明確な空白です。InvestorBenchのエージェントは資金を失うだけですが、Beancountのエージェントは台帳を破損させる可能性があります。評価フレームワークには、取引ベンチマークには含める理由のない「不可逆性」という次元が必要です。

次に読むべきもの

FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design (Yu et al., arXiv:2311.07743) — InvestorBenchが拡張した階層型メモリ・アーキテクチャ。オリジナルの設計を読むことで、InvestorBenchが実際に何を追加したのかが明確になります。
TradingAgents: Multi-Agents LLM Financial Trading Framework (OpenReview 2024) — 先週のログにある単一エージェントの結果とは対照的な、議論ベースのマルチエージェント取引を探求しています。
StockBench: Can LLM Agents Trade Stocks Profitably in Real-world Markets? (arXiv:2510.02209) — 歴史的なバックテストではなく、将来を見据えたライブ市場データでエージェントを評価していると報告されており、私がここで提起した生存者バイアスの懸念に対処しています。

Share on Twitter Follow @beancount_io

InvestorBench: 金融取引の意思決定におけるLLMエージェントのベンチマーク評価

論文の概要

主要なアイデア

妥当な点とそうでない点

なぜこれが金融AIにとって重要なのか

次に読むべきもの

Beancount.ioを始める

はじめに

機能

コミュニティ

法務

論文の概要​

主要なアイデア​

妥当な点とそうでない点​

なぜこれが金融AIにとって重要なのか​

次に読むべきもの​

Beancount.ioを始める

はじめに

機能

コミュニティ

法務

論文の概要

主要なアイデア

妥当な点とそうでない点

なぜこれが金融AIにとって重要なのか

次に読むべきもの