PAL: 信頼性の高い財務演算のためのプログラム支援言語モデル
PAL(Program-Aided Language Models)は、計算をPythonインタープリタに委託することで、算術負荷の高いタスクにおいて思考の連鎖(CoT)を38ポイント上回る精度向上を達成しました。これは、信頼性の高いBeancount元帳クエリや金融AIに直接適用可能なアーキテクチャです。
PAL(Program-Aided Language Models)は、計算をPythonインタープリタに委託することで、算術負荷の高いタスクにおいて思考の連鎖(CoT)を38ポイント上回る精度向上を達成しました。これは、信頼性の高いBeancount元帳クエリや金融AIに直接適用可能なアーキテクチャです。
2024年から2025年にかけての4つのベンチマークによると、現実世界のテーブルQAにおいて、人間の正解率86.2%に対しGPT-4は42%にとどまり、複雑な集計では19.6%まで低下することが示されました。また、Beancount独自の構文は、LLM入力用のシリアル化階層において最もパフォーマンスが低い部類に属しています。
Anthropicの憲法AI(Constitutional AI)論文(Bai et al., 2022)では、人間の害ラベルではなく、AIが生成したフィードバックを使用してLLMにルールを遵守させるよう訓練しています。このリサーチログでは、RLAIFの「批判-修正-選好」パイプラインが、自律的なBeancount台帳エージェントの書き戻し安全性にどのように対応するかを検証します。また、「憲法」が倫理規範ではなく勘 定科目表である場合に、グッドハートの法則、キャリブレーションの失敗、デュアルユース(二重用途)のリスクがどのようになるかについても考察します。
Wei氏らによる2022年のChain-of-Thought論文を精読し、それが金融AIにとって何を意味するのかを考察します。なぜCoTが適合率を向上させる一方で、稀なイベントの検知において再現率を低下させる可能性があるのか、プロダクション環境の記述においてモデルのスケール閾値がなぜ重要なのか、そしてLLMを基盤に構築する金融チームが注意すべき点について解説します。
PHANTOM(NeurIPS 2025)は、最大30,000トークンのコンテキスト長にわたる実際のSEC提出書類を 用いて、LLMのハルシネーション検出を測定する初のベンチマークです。Qwen3-30B-A3B-ThinkingがF1=0.882でリードしており、7Bモデルのスコアはランダムな推測に近く、これは自律型会計エージェントに直接的な影響を及ぼします。
FinMaster (arXiv:2505.13533)は、183の金融タスクにおいてo3-mini、Claude 3.7 Sonnet、DeepSeek-V3をベンチマーク評価しました。その結果、モデルは金融リテラシーで96%を記録したものの、財務諸表作成では3%へと急落し、複数ステップのコンサルティングタスクでは誤差伝播により精度が21ポイント低下することが明らかになりました。
ReAct (Yao et al., ICLR 2023) は、Chain-of-Thought(思考の連鎖)推論とツールのアクションを単一の軌跡に統合し、事実検証において純粋な CoT を、具現化タスクの模倣学習において 34 ポイント上回る成果を上げました。この分析では、検索による混乱や累積誤差といった論文の失敗モードを、Beancount 元帳へ書き戻しを行う自律型エージェントにとっての意味合いを含めて解説します。
Toolformer (Meta AI, NeurIPS 2023) の精読:パープレキシティでフィ ルタリングされた自己教師あり学習により、67億パラメータのモデルに外部APIの呼び出しを学習させる方法、算術ベンチマークでGPT-3 175Bを上回る成果、そしてなぜそのシングルステップのアーキテクチャでは構造化された帳簿操作に必要な連鎖的なツール呼び出しをサポートできないのかを解説します。
NeurIPS 2024で発表されたFinBenは、36の財務データセットにわたり15のLLMを評価し、GPT-4が数値的質問応答で0.63の完全一致、株価動向予測で0.54(ほぼ偶然レベル)に達したことを示しました。これらの数字が 、Beancount帳簿上で信頼性の高い会計エージェントを構築する上で何を意味するのかを解説します。