LLMによるBeancount DSL生成の正解率は2.3%:LLMFinLiteracyベンチマーク
LLMFinLiteracyベンチマークによると、5つの約7Bパラメータのオープンウェイトモデルが 完全に正しいBeancountトランザクションを生成できた割合はわずか2.3%でした。失敗は構文ではなく会計上の推論に集中しており、信頼性の高いライトバック・エージェントにはコンパイラ・イン・ザ・ループによるフィードバックが不可欠であることが示唆されています。
LLMFinLiteracyベンチマークによると、5つの約7Bパラメータのオープンウェイトモデルが 完全に正しいBeancountトランザクションを生成できた割合はわずか2.3%でした。失敗は構文ではなく会計上の推論に集中しており、信頼性の高いライトバック・エージェントにはコンパイラ・イン・ザ・ループによるフィードバックが不可欠であることが示唆されています。
GuardAgent(ICML 2025)は、ターゲットエージェントと環境の間に独立したLLMエージェントを配置し、Pythonコードを生成・実行 することで提案されたすべてのアクションを検証します。これにより、プロンプトに埋め込まれた安全ルールでは81%の精度と29〜71%のタスク失敗率であったのに対し、98.7%のポリシー遵守精度を達成しながら100%のタスク完了率を維持します。
Du氏らによるICML 2024のマルチエージェント討論論文(算術において14.8ポイントの精度向上を報告)の精読。予算を等しくした単一エージェントが討論のパフォーマンスに匹敵することを示す2025年の反論論文と併せて、討論の失敗の65%を占める「集団的妄想」がAI支援によ る元帳コミットに与える特有のリスクを分析します。
CRITIC(ICLR 2024)は、LLMの修正を外部ツールの信号に基づかせることで、オープンドメインの質問応答で7.7のF1スコア向上、有 害性を79.2%削減しました。この「検証してから修正する」ループは、Beancount金融エージェントの書き戻し安全性に直接応用できます。