MemGPTは、OSス タイルの仮想メモリページングをLLMに適用し、ワーキングメモリ、リコール、アーカイブの3層ストレージを使用して、エージェントにセッションをまたがる永続的な想起能力を提供します。マルチセッションチャットのベンチマークにおいて、MemGPTとGPT-4の組み合わせは、固定コンテキストのベースラインの32.1%に対し、92.5%の精度を達成しました。
SWE-agent (NeurIPS 2024) は、LLM とソフトウェア環境の間の専用レイヤーであるエージェント・コンピュータ・インターフェース (ACI) を導入し、生のシェルアクセスと比較して 10.7 パーセントポイントの改善、GPT-4 Turbo による SWE-bench での 12.47% の解決率を達成しました。自律型コーディングエージェントの主なボトルネックは、モデルの能力ではなく、インターフェースの設計にあります。
SWE-benchは、12個のPythonリポジトリにおける2,294件の実際のGitHubイシューを用いて、実行ベースのテストで言語モデルを評価します。発表時、Claude 2は現実的なリトリーバル設定で1.96%のイシューしか解決できず、コーディングエージェントの事実上のベンチマークを確立しました。また、Beancountのライトバックエージェントに直接関連するリトリーバルとパッチ長の失敗モードを明らかにしました。
CodeAct (ICML 2024)は、JSON形式のツール呼び出しを実行可能なPythonコードに置き換えることで、マルチツール・タスクにおけるGPT-4エージェントの成功率を約20ポイント向上させ、対話ターン数を30%削減します。これは、信頼性の高いBeancount照合エージェントの構築に直接的な影響を与えます。
Huang氏ら(ICLR 2024)は、外部フィードバックなしで自身の推論をレビューするよう求められたLLMの精度が一貫して低下すること(GSM8KでGPT-4が95.5%から91.5%に低下)を示しました。これが信頼性の高いBeancount仕訳エージェントの設計にどのような影響を与えるかを解説します。
Tree of Thoughts (ToT)は、LLMの推論を枝分かれする探索ツリーとして構築し、プルーニング(枝刈り)とバックトラッキング(後戻り)を行うことで、Game of 24において標準的なGPT-4 CoTの4%に対し74%の成功率を達成しました。これは、Beancountワークフローにおける多段階の財務分類や税務最適化に直接的な示唆を与えます。
CRITIC(ICLR 2024)は、LLMの修正を外部ツールの信号に基づかせることで、オープンドメインの質問応答で7.7のF1スコア向上、有害性を79.2%削減しました。この「検証してから修正する」ループは、Beancount金融エージェントの書き戻し安全性に直接応用できます。
Reflexion (NeurIPS 2023) は、LLMエージェントが言語的な事後分析をエピソードバッファに保存することで、重みの更新なしに自己改善することを可能にします。GPT-4を使用したHumanEvalでは91%に達しますが、WebShopでは失敗しており、言語的強化は評価者が明確で実行可能なシグナルを生成する場合にのみ機能するという構造的な制約を明らかにしています。これが、自己修正を行うBeancount帳簿エージェントの構築において何を意味するかを解説します。
自己整合性は、貪欲な思考の連鎖(CoT)デコードを、サンプリングされたN個の推論パスに基づく多数決に置き換えます。これにより、ファインチューニングなしでGSM8KにおけるGPT-3の精度を17.9ポイント向上させ、単一のLLMデコードが信頼できない多段階の財務計算に直接適用可能です。