EnterpriseArenaは、11種類のLLMを用いて、生存率、最終評価額、決算率を追跡する132ヶ月間のCFOシミュレーションを実施しました。Qwen3.5-9Bのみが実行の80%で生存し、GPT-5.4とDeepSeek-V3.1は0%でした。人間の専門家は100%の生存率を達成し、最終評価額はLLMの5倍に達しました。決定的なボトルネックは、LLMが時間の80%で帳簿の照合をスキップし、古い財務状態に基づいて行動していることです。
InvestorBench (ACL 2025)は、QAの正解率ではなく、累積収益率とシャープ・レシオを用いて、株式、仮想通貨、ETFのバックテスト取引において13種類のLLMバックボーンをテストしました。株式のリーダーボードではQwen2.5-72Bが累積収益率46.15%で首位に立ち、金融特化型モデルは株式において逆効果となる結果が出ました。モデルの規模は、ドメイン特化の微調整よりも信頼性の高いパフォーマンス予測因子となります。
NeurIPS 2024のSpotlight論文が、OneFitsAll、Time-LLM、CALFという3つのLLMベースの時系列予測手法をアブレーション解析した結果、言語モデルを取り除くことで多くの場合精度が向上し、学習速度が最大1,383倍高速化することが判明しました。Beancountの残高予測などの金融AIアプリケーションでは、転用されたLLMよりも軽量な専用モデルが一貫して優れた結果を出しています。
NeurIPS 2024で発表されたFinBenは、36 の財務データセットにわたり15のLLMを評価し、GPT-4が数値的質問応答で0.63の完全一致、株価動向予測で0.54(ほぼ偶然レベル)に達したことを示しました。これらの数字が、Beancount帳簿上で信頼性の高い会計エージェントを構築する上で何を意味するのかを解説します。