Mike Thrift
Marketing Manager
SWE-agent: インターフェース設計がいかに自動化ソフトウェアエンジニアリングを解禁するか
SWE-agent (NeurIPS 2024) は、LLM とソフトウェア環境の間の専用レイヤーであるエージェント・コンピュータ・インターフェース (ACI) を導入し、生のシェルアクセスと比較して 10.7 パーセントポイントの改善、GPT-4 Turbo による SWE-bench での 12.47% の解決率を達成しました。自律型コーディングエージェントの主なボトルネックは、モデルの能力ではなく、インターフェースの設計にあります。
SWE-bench: 言語モデルは現実世界のGitHubの問題を解決できるか?
SWE-benchは、12個のPythonリポジトリにおける2,294件の実際のGitHubイシューを用いて、実行ベースのテストで言語モデルを評価します。発表時、Claude 2は現実的なリトリーバル設定で1.96%のイシューしか解決できず、コーディングエージェントの事実上のベンチマークを確立しました。また、Beancountのライトバックエージェントに直接関連するリトリーバルとパッチ長の失敗モードを明らかにしました。
CodeAct: 実行可能なPythonコードがLLMエージェントの精度を20%向上させる理由
CodeAct (ICML 2024)は、JSON形式のツール呼び出しを実行可能なPythonコードに置き換えることで、マルチツール・タスクにおけるGPT-4エージェントの成功率を約20ポイント向上させ、対話ターン数を30%削減します。これは、信頼性の高いBeancount照合エージェントの構築に直接的な影響を与えます。
LLMはまだ推論を自己修正できない — ICLR 2024の知見と金融AIへの示唆
Huang氏ら(ICLR 2024)は、外部フィードバックなしで自身の推論をレビューするよう求められたLLMの精度が一貫して低下すること(GSM8KでGPT-4が95.5%から91.5%に低下)を示しました。これが信頼性の高いBeancount仕訳エージェントの設計にどのような影響を与えるかを解説します。
Tree of Thoughts: LLMの探索による意図的な問題解決
Tree of Thoughts (ToT)は、LLMの推論を枝分かれする探索ツリーとして構築し、プルーニング(枝刈り)とバックトラッキング(後戻り)を行うことで、Game of 24において標準的なGPT-4 CoTの4%に対し74%の成功率を達成しました。これは、Beancountワークフローにおける多段階の財務分類や税務最適化に直接的な示唆を与えます。
CRITIC:なぜLLMの自己修正には外部ツールのフィードバックが必要なのか
CRITIC(ICLR 2024)は、LLMの修正を外部ツールの信号に基づかせることで、オープンドメインの質問応答で7.7のF1スコア向上、有害性を79.2%削減しました。この「検証してから修正する」ループは、Beancount金融エージェントの書き戻し安全性に直接応用できます。
Reflexion: 再学習なしにミスから学習する言語エージェント
Reflexion (NeurIPS 2023) は、LLMエージェントが言語的な事後分析をエピソードバッファに保存することで、重みの更新なしに自己改善することを可能にします。GPT-4を使用したHumanEvalでは91%に達しますが、WebShopでは失敗しており、言語的強化は評価者が明確で実行可能なシグナルを生成する場合にのみ機能するという構造的な制約を明らかにしています。これが、自己修正を行うBeancount帳簿エージェントの構築において何を意味するかを解説します。
自己整合性:多数決サンプリングによる思考の連鎖(Chain-of-Thought)精度の向上
自己整合性は、貪欲な思考の連鎖(CoT)デコードを、サンプリングされたN個の推論パスに基づく多数決に置き換えます。これにより、ファインチューニングなしでGSM8KにおけるGPT-3の精度を17.9ポイント向上させ、単一のLLMデコードが信頼できない多段階の財務計算に直接適用可能です。
PAL: 信頼性の高い財務演算のためのプログラム支援言語モデル
PAL(Program-Aided Language Models)は、計算をPythonインタープリタに委託することで、算術負荷の高いタスクにおいて思考の連鎖(CoT)を38ポイント上回る精度向上を達成しました。これは、信頼性の高いBeancount元帳クエリや金融AIに直接適用可能なアーキテクチャです。
LLMはテーブルデータの推論ができるのか?4つのベンチマークが示す金融AIの現状
2024年から2025年にかけての4つのベンチマークによると、現実世界のテーブルQAにおいて、人間の正解率86.2%に対しGPT-4は42%にとどまり、複雑な集計では19.6%まで低下することが示されました。また、Beancount独自の構文は、LLM入力用のシリアル化階層において最もパフォーマンスが低い部類に属しています。
会計エージェントのための憲法AI:RLAIF、ポリシー規則、およびグッドハートの法則のリスク
Anthropicの憲法AI(Constitutional AI)論文(Bai et al., 2022)では、人間の害ラベルではなく、AIが生成したフィードバックを使用してLLMにルールを遵守させるよう訓練しています。このリサーチログでは、RLAIFの「批判-修正-選好」パイプラインが、自律的なBeancount台帳エージェントの書き戻し安全性にどのように対応するかを検証します。また、「憲法」が倫理規範ではなく勘定科目表である場合に、グッドハートの法則、キャリブレーションの失敗、デュアルユース(二重用途)のリスクがどのようになるかについても考察します。
Chain-of-Thoughtプロンプティング:金融AIにおける適合率と再現率のトレードオフ
Wei氏らによる2022年のChain-of-Thought論文を精読し、それが金融AIにとって何を意味するのかを考察します。なぜCoTが適合率を向上させる一方で、稀なイベントの検知において再現率を低下させる可能性があるのか、プロダクション環境の記述においてモデルのスケール閾値がなぜ重要なのか、そしてLLMを基盤に構築する金融チームが注意すべき点について解説します。