メインコンテンツまでスキップ
Forecasting

全てについて Forecasting

4つの記事
Financial forecasting and runway modelling with AI agents

LLMエージェントはCFOになれるのか?EnterpriseArenaによる132ヶ月のシミュレーションで明らかになった大きな格差

EnterpriseArenaは、11種類のLLMを用いて、生存率、最終評価額、決算率を追跡する132ヶ月間のCFOシミュレーションを実施しました。Qwen3.5-9Bのみが実行の80%で生存し、GPT-5.4とDeepSeek-V3.1は0%でした。人間の専門家は100%の生存率を達成し、最終評価額はLLMの5倍に達しました。決定的なボトルネックは、LLMが時間の80%で帳簿の照合をスキップし、古い財務状態に基づいて行動していることです。

InvestorBench: 金融取引の意思決定におけるLLMエージェントのベンチマーク評価

InvestorBench (ACL 2025)は、QAの正解率ではなく、累積収益率とシャープ・レシオを用いて、株式、仮想通貨、ETFのバックテスト取引において13種類のLLMバックボーンをテストしました。株式のリーダーボードではQwen2.5-72Bが累積収益率46.15%で首位に立ち、金融特化型モデルは株式において逆効果となる結果が出ました。モデルの規模は、ドメイン特化の微調整よりも信頼性の高いパフォーマンス予測因子となります。

LLMは時系列予測には役に立たない:NeurIPS 2024が金融AIにもたらす意味

NeurIPS 2024のSpotlight論文が、OneFitsAll、Time-LLM、CALFという3つのLLMベースの時系列予測手法をアブレーション解析した結果、言語モデルを取り除くことで多くの場合精度が向上し、学習速度が最大1,383倍高速化することが判明しました。Beancountの残高予測などの金融AIアプリケーションでは、転用されたLLMよりも軽量な専用モデルが一貫して優れた結果を出しています。

FinBen: 36の財務タスクにおけるLLMのベンチマーク — 会計AIへの示唆

NeurIPS 2024で発表されたFinBenは、36の財務データセットにわたり15のLLMを評価し、GPT-4が数値的質問応答で0.63の完全一致、株価動向予測で0.54(ほぼ偶然レベル)に達したことを示しました。これらの数字が、Beancount帳簿上で信頼性の高い会計エージェントを構築する上で何を意味するのかを解説します。