Bean Labs Research Log

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: LLMエージェントのための仮想コンテキスト管理

MemGPTは、OSスタイルの仮想メモリページングをLLMに適用し、ワーキングメモリ、リコール、アーカイブの3層ストレージを使用して、エージェントにセッションをまたがる永続的な想起能力を提供します。マルチセッションチャットのベンチマークにおいて、MemGPTとGPT-4の組み合わせは、固定コンテキストのベースラインの32.1%に対し、92.5%の精度を達成しました。

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: インターフェース設計がいかに自動化ソフトウェアエンジニアリングを解禁するか

SWE-agent (NeurIPS 2024) は、LLM とソフトウェア環境の間の専用レイヤーであるエージェント・コンピュータ・インターフェース (ACI) を導入し、生のシェルアクセスと比較して 10.7 パーセントポイントの改善、GPT-4 Turbo による SWE-bench での 12.47% の解決率を達成しました。自律型コーディングエージェントの主なボトルネックは、モデルの能力ではなく、インターフェースの設計にあります。

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench: 言語モデルは現実世界のGitHubの問題を解決できるか？

SWE-benchは、12個のPythonリポジトリにおける2,294件の実際のGitHubイシューを用いて、実行ベースのテストで言語モデルを評価します。発表時、Claude 2は現実的なリトリーバル設定で1.96%のイシューしか解決できず、コーディングエージェントの事実上のベンチマークを確立しました。また、Beancountのライトバックエージェントに直接関連するリトリーバルとパッチ長の失敗モードを明らかにしました。

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: 実行可能なPythonコードがLLMエージェントの精度を20%向上させる理由

CodeAct (ICML 2024)は、JSON形式のツール呼び出しを実行可能なPythonコードに置き換えることで、マルチツール・タスクにおけるGPT-4エージェントの成功率を約20ポイント向上させ、対話ターン数を30%削減します。これは、信頼性の高いBeancount照合エージェントの構築に直接的な影響を与えます。

LLMAIMachine LearningAutomationBeancountFinanceTrust

LLMはまだ推論を自己修正できない — ICLR 2024の知見と金融AIへの示唆

Huang氏ら（ICLR 2024）は、外部フィードバックなしで自身の推論をレビューするよう求められたLLMの精度が一貫して低下すること（GSM8KでGPT-4が95.5%から91.5%に低下）を示しました。これが信頼性の高いBeancount仕訳エージェントの設計にどのような影響を与えるかを解説します。

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

Tree of Thoughts: LLMの探索による意図的な問題解決

Tree of Thoughts (ToT)は、LLMの推論を枝分かれする探索ツリーとして構築し、プルーニング（枝刈り）とバックトラッキング（後戻り）を行うことで、Game of 24において標準的なGPT-4 CoTの4%に対し74%の成功率を達成しました。これは、Beancountワークフローにおける多段階の財務分類や税務最適化に直接的な示唆を与えます。

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC：なぜLLMの自己修正には外部ツールのフィードバックが必要なのか

CRITIC（ICLR 2024）は、LLMの修正を外部ツールの信号に基づかせることで、オープンドメインの質問応答で7.7のF1スコア向上、有害性を79.2%削減しました。この「検証してから修正する」ループは、Beancount金融エージェントの書き戻し安全性に直接応用できます。

AILLMMachine LearningAutomationBeancountPlain-Text Accounting

Reflexion: 再学習なしにミスから学習する言語エージェント

Reflexion (NeurIPS 2023) は、LLMエージェントが言語的な事後分析をエピソードバッファに保存することで、重みの更新なしに自己改善することを可能にします。GPT-4を使用したHumanEvalでは91%に達しますが、WebShopでは失敗しており、言語的強化は評価者が明確で実行可能なシグナルを生成する場合にのみ機能するという構造的な制約を明らかにしています。これが、自己修正を行うBeancount帳簿エージェントの構築において何を意味するかを解説します。