OpenHands:AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味すること
OpenHandsはMITライセンスのDockerサンドボックス化されたエージェントプラットフォームです。CodeActはSWE-Bench Liteで26%を達成しました。これは今日のAIエージェントが確実に実行できることを確立する冷静なベンチマークであり、最初の実用的な財務デプロイメントが自律型ではなく、範囲を厳密に限定すべき理由を示しています。
OpenHandsはMITライセンスのDockerサンドボックス化されたエージェントプラットフォームです。CodeActはSWE-Bench Liteで26%を達成しました。これは今日のAIエージェントが確実に実行できることを確立する冷静なベンチマークであり、最初の実用的な財務デプロイメントが自律型ではなく、範囲を厳密に限定すべき理由を示しています。
ShieldAgent (ICML 2025) は、LLMベースのガードレールをマルコフ論理ネットワーク上に構築された確率的ルール回路に置き換え、APIコールを64.7%削減しながらエージェント攻撃に対して90.4%の精度を達成しました。これが金融AIシステムにおける検証可能な安全性にとって何を意味するのかを解説します。
70億パラメータのLLMを用いたRAGと教師なしファインチューニングの実証的な比較により、RAGはカットオフ後の事実に対して0.875以上の精度を達成する一方、ファインチューニングは0.504で停滞することが示されました。これはBeancountエージェントの設計や、頻繁な知識更新を必要とするシステムに直接的な影響を与えます。
Gorilla(Patilら、NeurIPS 2024)は、検索されたAPIドキュメントを用いて検索を意識した学習(RAT)で7BのLLaMAモデルを微調整し、GPT-4のゼロショットと比較してハルシネーション率を78%から11%に削減しました。これは、勘定科目名の誤りや符号の反転が単なる不快感ではなく正確性の致命的な欠陥となる、金融AIの書き戻しエージェントにとって直接的な意義を持ちます。
SWE-agent (NeurIPS 2024) は、LLM とソフトウェア環境の間の専用レイヤーであるエージェント・コンピュータ・インターフェース (ACI) を導入し、生のシェルアクセスと比較して 10.7 パーセントポイントの改善、GPT-4 Turbo による SWE-bench での 12.47% の解決率を達成しました。自律型コーディングエージェントの主なボトルネックは、モデルの能力ではなく、インターフェースの設計にあります。
SWE-benchは、12個のPythonリポジトリにおける2,294件の実際のGitHubイシューを用いて、実行ベースのテストで言語モデルを評価します。発表時、Claude 2は現実的なリトリーバル設定で1.96%のイシューしか解決できず、コーディングエージェントの事実上のベンチマークを確立しました。また、Beancountのライトバックエージェントに直接関連するリトリーバルとパッチ長の失敗モードを明らかにしました。
Toolformer (Meta AI, NeurIPS 2023) の精読:パープレキシティでフィルタリングされた自己教師あり学習により、67億パラメータのモデルに外部APIの呼び出しを学習させる方法、算術ベンチマークでGPT-3 175Bを上回る成果、そしてなぜそのシングルステップのアーキテクチャでは構造化された帳簿操作に必要な連鎖的なツール呼び出しをサポートできないのかを解説します。