LLMエージェントはCFOになれるのか?EnterpriseArenaによる132ヶ月のシミュレーションで明らかになった大きな格差
現在、金融AIにおける最も野心的な問いは「LLMは貸借対照表に関する質問に答えられるか?」ではなく、「LLMは資金を枯渇させることなく、長期にわたって企業の資金を管理できるか?」というものです。Yi Han氏らによる『Can LLM Agents Be CFOs?』(arXiv:2603.23638)では、まさにそれをテストするためにEnterpriseArenaを構築しました。その答えは、「かろうじて可能だが、期待された方法ではない」というものでした。
論文の概要
EnterpriseArenaは、CFOレベルのリソース配分を132ヶ月(11年間)にわたってシミュレーションする環境です。各 タイムステップは1ヶ月を表します。エージェントは、企業レベルの財務データ、匿名化されたビジネス文書、およびFRED、CBOE、S&P Globalのデータから抽出されたマクロ経済シグナルの部分的な観測を受け取ります。エージェントには、現金残高の確認、財務記録のレビュー、市場状況の分析、キャッシュフローの予測という4つの操作にまたがる月間20回のツール呼び出し予算が与えられています。そして、決算(照合)、資金調達(株式または負債、結果は確率的)、またはパス(何もしない)の3つの行動から1つを選択しなければなりません。主な制約は、会社の現金残高がすべてのタイムステップで非負(マイナスにならない)を維持しなければならないことであり、これに違反するとエピソードは終了し、スコアはゼロになります。生存を前提として、エージェントはスコアリング計算式「Rev_T × 5 + Cash_T − 5,000 × N_tools」に基づいて最終企業評価額を最大化します。この式では、過剰なツール使用に明示的なペナルティが課されます。
Gemini-3.1-Pro、Claude-Haiku-4.5、GPT-5.4、DeepSeek-V3.1、Llama-3.3-70B、Qwen3.5-397B、Qwen3.5-9Bを含む11種類のLLMが評価されました。また、それぞれ8年と14年の経験を持つ2人の財務専門家によって検証された人間専門家のベンチマークも併せて評価されました。
主な知見
- 生存率はモデルによって劇的に異なる: Qwen3.5-9Bは実行の80%で生存し、Gemini-3.1-Proは50%、Claude-Haiku-4.5とGLM-5はそれぞれ20%でした。一方で、GPT-5.4、DeepSeek-V3.1、Llama-3.3-70B、Mistral-Small-24B、Mixtral-8x7Bはすべて0%でした。LLM全体の平均生存率は26%です。
- モデルのサイズが大きいほど性能が良いとは限らない: Qwen3.5-9B(90億パラメータ、生存率80%、最終評価額7880万ドル)は、Qwen3.5-397B(3970億パラメータ、生存率20%)やGPT-5.4(生存率0%)を圧倒しました。
- 人間との格差は依然として大きい: 人間のベースラインは生存率100%、最終評価額1億5220万ドル ± 2960万ドルを達成しました。対してLLMの平均は、生存率26%で評価額2820万ドルにとどまりました。
- 決算処理が決定的なボトルネックである: 人間の専門家はタイムステップの94.3%で決算(照合)を行いますが、LLMの平均は19.3%でした。この行動こそが真実の財務諸表を作成し、その後の合理的な意思決定を可能にするものです。
- 行動を伴わない情報収集は致命的である: Qwen3.5-397Bはシミュレーション全体を通じて市場分析や予測ツールを高い頻度で使用しましたが、決算はほとんど行わず(決算率0.0%)、資金調達もほとんど要求しませんでした。結果として、何が起きているかを「知って」いながら、資金枯渇により脱落しました。
- ツール予算のペナルティが重要: スコアリング計算式は、行動する代わりに強迫的に確認を繰り返すエージェントを罰します。これは現実の機会費用を反映した制約です。
評価できる点と課題
生存を厳しい制約とし、その上で最終評価額を競うという二重目的の設計は、最近のエージェント・ベンチマークの中でも非常に優れた選択の一つです。これは現実のCFOがどのように行動するかを反映しています。つまり、資金が尽きれば成長を最適化することは不可能です。カレンダーの日付や企業アイデンティティを匿名化したことで、モデルが記憶している過去の履歴からパターンマッチングを行うことを防いでおり、これは実際のティッカーや日付を使用する従来の金融ベンチマークよりも純粋な手法の改善と言えます。
著者らがケーススタディを通じて特定した失敗モードの分類は説得力があります。GPT-5.4は99.1%のパス率(ほぼすべてのステップで何もしないという「行動」をとる)を記録した一方で、Qwen3.5-397Bは分析を行動と勘違いしました。これらは行動特性として明確に異なる失敗モードであり、それぞれ異なる対策が必要です。
一方で納得しきれない点もあります。確率的なマクロ環境にはガウスノイズが使用されていますが、著者ら自身が認めているように、これはブラックスワン・イベントや人間の不合理性を再現することはできません。また、月間20回のツール呼び出しという予算設定もやや恣意的です。現実のCFOは自身の記憶に対してこのようなクエリレート制限に直面することはありません。このため、ベンチマークが長期的な財務判断を測定しているのか、あるいはリソース制約下でのRAG(検索拡張生成)の能力を測定しているのかという疑問が残ります。また、単一エージェント構造も著者らが挙げて いる明示的な限界です。現実のCFOはコントローラー、FP&Aアナリスト、財務チームといった組織階層の中で動いており、この論文ではそれをシミュレートしようとはしていません。
モデルサイズが生存率を予測しないという発見は衝撃的で、おそらく事実でしょうが、そのメカニズムについては十分に説明されていません。著者らは、それが指示に従う能力の欠如なのか、長いコンテキストにおける一貫性の問題なのか、あるいはリスクの較正ミスなのかを完全には解明せずに述べるにとどめています。
なぜこれが金融AIにとって重要なのか
EnterpriseArenaにおける「決算(book-closing)」アクションは、本質的にBeancountのbalance表明(アサーション)および元帳の照合ステップに相当します。つまり、行動する前に財務状態の真実を確定させる瞬間です。LLMがこれを80%の確率でスキップするという発見は、ライトバック(書き戻し)の安全性に関する問題に直結します。行動の前に照合を避けるエージェントは、古い、あるいはハルシネーション(幻覚)による状態に基づいて行動していることになります。Beancountの自動化において、これは照合ステップがエージェントのループ内でオプションではなく、強制かつ検証可能であるべきであることを示唆しています。
132ヶ月というスパンも、数年間にわたる元帳管理と直接的な類似性があります。持続的な状況認識が時間とともに低下するという発見は、5年分の取引履歴を管理するBeancountエージェントにも同様の劣化が予想されることを意味します。たとえエージェントがすべてのデータをコンテキスト内に持っていたとしても、60ヶ月目において一貫した行動をとれるとは限りません。これは、長期稼働するBeancountエージェントセッションにおいて、事後的なクエリだけでなく、定期的な強制照合チェックポイントが必要であることを示唆しています。
Qwen3.5-397Bが陥った「情報収集の罠」は、設計上の有用な警告です。多くの検索ツールを備えたエージェントは、特に行動ミス(元帳の破損)のコストが高い場合、コミットするよりも検索を好む可能性があります。EnterpriseArenaが使用しているようなツール予算の制約は、Beancountのライトバック・エージェントに行動の規律を強制するのに役立つかもしれません。
次に読むべきもの
- EcoGym (arXiv:2602.09514) — 自動販売機、フリーランス、オペレーションの各環境で1,000ステップ以上にわたる長期的な経済ベンチマーク。単一のモデルがすべてを支配することはないことを示しており、EnterpriseArenaの失敗モードが特定のベンチマーク設計特有のものではないことを示唆しています。
- AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — ワークフロー設計をMCTSとLLM フィードバックを用いたコード空間探索として再定式化。手動で設計されたエージェントの行動が失敗することをEnterpriseArenaが示したならば、より優れたパイプラインを自動的に発見するための次のステップとしてAFlowが考えられます。
- ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — ツール使用のトレーニングと評価に関する基礎的なフレームワーク。ToolLLMでツール呼び出しの挙動がどのように学習されるかを理解することで、EnterpriseArenaにおける「行動回避」の失敗がトレーニングの問題なのか、プロンプトの問題なのかを明確にできます。
