メインコンテンツまでスキップ
Transaction Validation

全てについて Transaction Validation

4つの記事
Validating and verifying financial transactions using language model agents

LLMによるBeancount DSL生成の正解率は2.3%:LLMFinLiteracyベンチマーク

LLMFinLiteracyベンチマークによると、5つの約7Bパラメータのオープンウェイトモデルが完全に正しいBeancountトランザクションを生成できた割合はわずか2.3%でした。失敗は構文ではなく会計上の推論に集中しており、信頼性の高いライトバック・エージェントにはコンパイラ・イン・ザ・ループによるフィードバックが不可欠であることが示唆されています。

GuardAgent: コード実行によるLLMエージェントの確定的安全性の強化

GuardAgent(ICML 2025)は、ターゲットエージェントと環境の間に独立したLLMエージェントを配置し、Pythonコードを生成・実行することで提案されたすべてのアクションを検証します。これにより、プロンプトに埋め込まれた安全ルールでは81%の精度と29〜71%のタスク失敗率であったのに対し、98.7%のポリシー遵守精度を達成しながら100%のタスク完了率を維持します。

マルチエージェントLLM討論:真の精度向上、制御不能な計算コスト、および集団的妄想

Du氏らによるICML 2024のマルチエージェント討論論文(算術において14.8ポイントの精度向上を報告)の精読。予算を等しくした単一エージェントが討論のパフォーマンスに匹敵することを示す2025年の反論論文と併せて、討論の失敗の65%を占める「集団的妄想」がAI支援による元帳コミットに与える特有のリスクを分析します。

CRITIC:なぜLLMの自己修正には外部ツールのフィードバックが必要なのか

CRITIC(ICLR 2024)は、LLMの修正を外部ツールの信号に基づかせることで、オープンドメインの質問応答で7.7のF1スコア向上、有害性を79.2%削減しました。この「検証してから修正する」ループは、Beancount金融エージェントの書き戻し安全性に直接応用できます。