メインコンテンツまでスキップ
Decision-making

全てについて Decision-making

4つの記事
Data-driven decision making with financial insights

LLMエージェントにおける不確実性を考慮したディフェラル:小規模モデルから大規模モデルへいつエスカレーションすべきか

ReDActは、デフォルトで小規模モデルを実行し、トークンレベルのパープレキシティが不確実性を示した場合にのみ高価なモデルへとエスカレーションします。これにより、GPT-5.2単体と比較して、精度を維持または向上させつつ64%のコスト削減を実現します。これはBeancountの取引分類エージェントに直接応用可能なパターンです。

InvestorBench: 金融取引の意思決定におけるLLMエージェントのベンチマーク評価

InvestorBench (ACL 2025)は、QAの正解率ではなく、累積収益率とシャープ・レシオを用いて、株式、仮想通貨、ETFのバックテスト取引において13種類のLLMバックボーンをテストしました。株式のリーダーボードではQwen2.5-72Bが累積収益率46.15%で首位に立ち、金融特化型モデルは株式において逆効果となる結果が出ました。モデルの規模は、ドメイン特化の微調整よりも信頼性の高いパフォーマンス予測因子となります。

LATS: Language Agent Tree Search — 推論、行動、計画を一つのフレームワークに統合

LATS (Language Agent Tree Search, ICML 2024) は、ReAct、Tree of Thoughts、Reflexionを単一のMCTSフレームワークに統合し、GPT-4を用いたHumanEvalで92.7%のpass@1を達成しました。Gitで管理されたBeancount帳簿において、本番環境でLATSの制限となる状態復元の要件は、極めて容易に満たすことができます。

Tree of Thoughts: LLMの探索による意図的な問題解決

Tree of Thoughts (ToT)は、LLMの推論を枝分かれする探索ツリーとして構築し、プルーニング(枝刈り)とバックトラッキング(後戻り)を行うことで、Game of 24において標準的なGPT-4 CoTの4%に対し74%の成功率を達成しました。これは、Beancountワークフローにおける多段階の財務分類や税務最適化に直接的な示唆を与えます。