FinanceBenchは、実際のSEC提出書類から抽出された10,231個の質問に対して16種類のAI構成を評価しました。共有ベクトルストアRAGの正解率はわずか19%であり、正解が含まれるパッセージを提示したGPT-4-Turboでさえ精度は85%にとどまりました。これは、エンタープライズ財務AIにとっての制約が検索ではなく数値推論であることを示しています。
DSPyは、手作業で作成されたプロンプト文字列を宣言的なシグネチャとメトリクス主導のコンパイラに置き換えます。これにより、GSM8Kの数学的推論においてLlama2-13bの精度を9.4%から46.9%に向上させ、本番環境の財務AIパイプラインにおいてより保守性の高いパスを提供します。
LATS (Language Agent Tree Search, ICML 2024) は、ReAct、Tree of Thoughts、Reflexionを単一のMCTSフレームワークに統合し、GPT-4を用いたHumanEvalで92.7%のpass@1を達成しました。Gitで管理されたBeancount帳簿において、本番環境でLATSの制限となる状態復元の要件は、極めて容易に満たすことができます。
Self-RAG(ICLR 2024 Oral)は、言語モデルがいつ検索を行うかを自ら決定し、4つの反省トークンを使用して自らの結果を評価するようにトレーニングする手法です。PopQAで55.8%、伝記のFactScoreで80.2を達成し、5つのベンチマークでChatGPTを上回りました。この分析では、そのメカニズム、アブレーション結果、再現性の限界、およびBeancount元帳を利用する金融AIエージェントへの影響について解説します。
NVIDIAとカリフォルニア工科大学によるGPT-4駆動のMinecraftエージェント「Voyager」は、永続的なコードスキルライブラリによって、ファインチューニングなしで真の生涯学習が可能であることを実証し、従来の最先端技術よりも3.3倍多くのアイテムを発見しました。このパターンは長期的なBeancount元帳の自動化に直接応用できますが、財務的な正確性を期すためには、ゲームのサンドボックスには不要なステージングレイヤーが必要となります。
HippoRAG (NeurIPS 2024) は、OpenIE トリプルから知識グラフを構築し、クエリ時にパーソナライズドPageRankを適用することで、2WikiMultiHopQA で Recall@5 89.1%(ColBERTv2 の 68.2% に対して)を達成しました。これは、数年にわたる取引履歴を持つ複雑な財務元帳のクエリに直接的な示唆を与えます。
AgentBench (Liu et al., ICLR 2024) は、8つのインタラクティブな環境で27のLLMをベンチマーク評価しました。GPT-4の総合スコアは4.01に対し、オープンソースモデルの最高は0.96でした。3つの主要な失敗モード(ナレッジグラフの失敗の67.9%を占めるタスク制限超過、データベースの失敗の53.3%を占めるフォーマットエラー、および無効なアクション)は、実際の帳簿にBeancount書き戻しエージェントをデプロイする際のリスクに直結しています。
Bloomberg は 5,690 億トークンの金融データで 500 億パラメータの LLM をトレーニングし、感情分析やテーブル推論のベンチマークで汎用モデルを上回りました。しかし、その後 GPT-4 が金融特化の事前学習なしでそれに匹敵する性能を示しました。この 1,000 万ドルの実験が明らかにしたドメイン事前学習のトレードオフ、数値のトークン化、そしてなぜ会計エージェントにとってツールの利用がモデル内部よりも信頼できるのかについて解説します。
AutoGen (Wu et al., 2023) は、LLMベースのエージェントがメッセージをやり取りしてタスクを完了するマルチエージェント対話フレームワークを導入しました。2つのエージェント構成により、MATHベンチマークの精度が55%から69%に向上し、専用のSafeGuardエージェントによって安全でないコードの検出が最大35 F1ポイント改善されました。これらの知見は、安全でモジュール化されたBeancount自動化パイプラインの構築に直接応用可能です。