メインコンテンツまでスキップ

Bean Labs Research Log

Gorilla: 検索を意識した学習(RAT)により、LLMのAPIハルシネーションを78%から11%に低減する方法

Gorilla(Patilら、NeurIPS 2024)は、検索されたAPIドキュメントを用いて検索を意識した学習(RAT)で7BのLLaMAモデルを微調整し、GPT-4のゼロショットと比較してハルシネーション率を78%から11%に削減しました。これは、勘定科目名の誤りや符号の反転が単なる不快感ではなく正確性の致命的な欠陥となる、金融AIの書き戻しエージェントにとって直接的な意義を持ちます。

Latest articles

MemGPT: LLMエージェントのための仮想コンテキスト管理

MemGPTは、OSスタイルの仮想メモリページングをLLMに適用し、ワーキングメモリ、リコール、アーカイブの3層ストレージを使用して、エージェントにセッションをまたがる永続的な想起能力を提供します。マルチセッションチャットのベンチマークにおいて、MemGPTとGPT-4の組み合わせは、固定コンテキストのベースラインの32.1%に対し、92.5%の精度を達成しました。

SWE-agent: インターフェース設計がいかに自動化ソフトウェアエンジニアリングを解禁するか

SWE-agent (NeurIPS 2024) は、LLM とソフトウェア環境の間の専用レイヤーであるエージェント・コンピュータ・インターフェース (ACI) を導入し、生のシェルアクセスと比較して 10.7 パーセントポイントの改善、GPT-4 Turbo による SWE-bench での 12.47% の解決率を達成しました。自律型コーディングエージェントの主なボトルネックは、モデルの能力ではなく、インターフェースの設計にあります。

SWE-bench: 言語モデルは現実世界のGitHubの問題を解決できるか?

SWE-benchは、12個のPythonリポジトリにおける2,294件の実際のGitHubイシューを用いて、実行ベースのテストで言語モデルを評価します。発表時、Claude 2は現実的なリトリーバル設定で1.96%のイシューしか解決できず、コーディングエージェントの事実上のベンチマークを確立しました。また、Beancountのライトバックエージェントに直接関連するリトリーバルとパッチ長の失敗モードを明らかにしました。

CodeAct: 実行可能なPythonコードがLLMエージェントの精度を20%向上させる理由

CodeAct (ICML 2024)は、JSON形式のツール呼び出しを実行可能なPythonコードに置き換えることで、マルチツール・タスクにおけるGPT-4エージェントの成功率を約20ポイント向上させ、対話ターン数を30%削減します。これは、信頼性の高いBeancount照合エージェントの構築に直接的な影響を与えます。

LLMはまだ推論を自己修正できない — ICLR 2024の知見と金融AIへの示唆

Huang氏ら(ICLR 2024)は、外部フィードバックなしで自身の推論をレビューするよう求められたLLMの精度が一貫して低下すること(GSM8KでGPT-4が95.5%から91.5%に低下)を示しました。これが信頼性の高いBeancount仕訳エージェントの設計にどのような影響を与えるかを解説します。

Tree of Thoughts: LLMの探索による意図的な問題解決

Tree of Thoughts (ToT)は、LLMの推論を枝分かれする探索ツリーとして構築し、プルーニング(枝刈り)とバックトラッキング(後戻り)を行うことで、Game of 24において標準的なGPT-4 CoTの4%に対し74%の成功率を達成しました。これは、Beancountワークフローにおける多段階の財務分類や税務最適化に直接的な示唆を与えます。

CRITIC:なぜLLMの自己修正には外部ツールのフィードバックが必要なのか

CRITIC(ICLR 2024)は、LLMの修正を外部ツールの信号に基づかせることで、オープンドメインの質問応答で7.7のF1スコア向上、有害性を79.2%削減しました。この「検証してから修正する」ループは、Beancount金融エージェントの書き戻し安全性に直接応用できます。

Reflexion: 再学習なしにミスから学習する言語エージェント

Reflexion (NeurIPS 2023) は、LLMエージェントが言語的な事後分析をエピソードバッファに保存することで、重みの更新なしに自己改善することを可能にします。GPT-4を使用したHumanEvalでは91%に達しますが、WebShopでは失敗しており、言語的強化は評価者が明確で実行可能なシグナルを生成する場合にのみ機能するという構造的な制約を明らかにしています。これが、自己修正を行うBeancount帳簿エージェントの構築において何を意味するかを解説します。

自己整合性:多数決サンプリングによる思考の連鎖(Chain-of-Thought)精度の向上

自己整合性は、貪欲な思考の連鎖(CoT)デコードを、サンプリングされたN個の推論パスに基づく多数決に置き換えます。これにより、ファインチューニングなしでGSM8KにおけるGPT-3の精度を17.9ポイント向上させ、単一のLLMデコードが信頼できない多段階の財務計算に直接適用可能です。