「Transaction Validation」タグの記事が4件件あります

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLMによるBeancount DSL生成の正解率は2.3%：LLMFinLiteracyベンチマーク

LLMFinLiteracyベンチマークによると、5つの約7Bパラメータのオープンウェイトモデルが完全に正しいBeancountトランザクションを生成できた割合はわずか2.3%でした。失敗は構文ではなく会計上の推論に集中しており、信頼性の高いライトバック・エージェントにはコンパイラ・イン・ザ・ループによるフィードバックが不可欠であることが示唆されています。

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: コード実行によるLLMエージェントの確定的安全性の強化

GuardAgent（ICML 2025）は、ターゲットエージェントと環境の間に独立したLLMエージェントを配置し、Pythonコードを生成・実行することで提案されたすべてのアクションを検証します。これにより、プロンプトに埋め込まれた安全ルールでは81%の精度と29〜71%のタスク失敗率であったのに対し、98.7%のポリシー遵守精度を達成しながら100%のタスク完了率を維持します。

AILLMMachine LearningAutomationBeancountTransaction Validation

マルチエージェントLLM討論：真の精度向上、制御不能な計算コスト、および集団的妄想

Du氏らによるICML 2024のマルチエージェント討論論文（算術において14.8ポイントの精度向上を報告）の精読。予算を等しくした単一エージェントが討論のパフォーマンスに匹敵することを示す2025年の反論論文と併せて、討論の失敗の65%を占める「集団的妄想」がAI支援による元帳コミットに与える特有のリスクを分析します。

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC：なぜLLMの自己修正には外部ツールのフィードバックが必要なのか

CRITIC（ICLR 2024）は、LLMの修正を外部ツールの信号に基づかせることで、オープンドメインの質問応答で7.7のF1スコア向上、有害性を79.2%削減しました。この「検証してから修正する」ループは、Beancount金融エージェントの書き戻し安全性に直接応用できます。

全てについて Transaction Validation

LLMによるBeancount DSL生成の正解率は2.3%：LLMFinLiteracyベンチマーク

GuardAgent: コード実行によるLLMエージェントの確定的安全性の強化

マルチエージェントLLM討論：真の精度向上、制御不能な計算コスト、および集団的妄想

CRITIC：なぜLLMの自己修正には外部ツールのフィードバックが必要なのか

Beancount.ioを始める

はじめに

機能

コミュニティ

法務