Beancount.io Blog

FinRAGBench-V：金融領域における視覚的引用を伴うマルチモーダルRAG

Sun, 12 Jul 2026 00:00:00 GMT

金融AIはこれまでテキストのみのRAGが主流でしたが、実際の金融文書はチャート、表、図表にあふれており、OCRでは完全にとらえることができません。FinRAGBench-V（EMNLP 2025）は、金融領域における視覚的引用を伴うマルチモーダルRAGを評価する初の大規模ベンチマークであり、その結果は、実用化されているシステムが到達すべきレベルまでの道のりの遠さを改めて突きつけています。

論文の概要

北京大学のZhao、Jin、Li、Gaoらは、調査レポート、財務諸表、目論見書、学術論文、雑誌、ニュース記事などの実際の金融文書から構築されたバイリンガルベンチマークであるFinRAGBench-Vを発表しました。検索コーパスは膨大で、中国語60,780ページ、英語51,219ページに及び、各言語約1,100件の文書が含まれています。これに、テキスト推論、チャート・表の抽出、数値計算、時間的制約のあるクエリ、複数ページにわたる推論など、7つの質問カテゴリにわたる、人間がアノテーションした1,394個のQAペアが組み合わされています。データセットに加えて、本論文の主要な貢献はRGenCiteです。これは、各主張を裏付ける特定の文書領域を示すバウンディングボックス座標の形式で、回答とともにピクセルレベルの視覚的引用を生成するベースラインシステムです。

主なポイント

マルチモーダル検索がテキストのみの検索を圧倒的な差で凌駕: ページ画像の埋め込みに基づいて構築されたビジョン・ランゲージ・リトリーバーであるColQwen2は、Recall@10で90.13%（中国語）および85.86%（英語）を達成しました。一方、最高クラスのテキストベースのリトリーバーであるBM25やBGE-M3は42.71%前後にとどまっています。この差は無視できるものではありません。
最先端モデルであっても生成精度は低い: 英語でのGPT-4oの正解率は43.41%（ROUGE 24.66）、中国語でのo4-miniは58.13%（ROUGE 38.55）でした。これらは強力な検索機能を備えた最高峰の商用モデルでの結果です。
ページレベルの引用は機能するが、ブロックレベルは機能しない: ページレベルの再現率は、最良のモデルで75〜93%に達します。しかし、どの特定のテーブルセルやチャート領域が主張の根拠となっているかを特定するブロックレベルの再現率は、20〜61%にまで低下します。これが監査可能性（アウディタビリティ）における大きな課題です。
数値推論と複数ページの推論が最初に限界を迎える: 複数ページにわたる計算や期間をまたぐ推論が必要な質問は、テストされたすべてのシステムで最も精度が急落するポイントとなりました。
商用モデルがオープンソースの代替モデルを大幅に上回る: 多くのNLPベンチマークよりもクローズドAPIとオープンソースモデルの差が大きく、視覚的な金融推論はオープンソースモデルにとって依然として未解決の課題であることを示唆しています。
引用の自動評価は不完全: 画像クロッピングによる引用エバリュエーターは、人間の判断とピアソンの相関係数 r = 0.68を達成しましたが、サンプリングなしで完全に信頼できるほどではありません。

評価できる点と今後の課題

検索に関する発見は、本論文の中で最も信頼できる結果です。6万ページ以上の規模でマルチモーダルとテキストのみのリトリーバーの間に50パーセントポイント近い差があることは、見過ごせません。金融文書をインデックス化する前にOCR処理を行うと、数値がどの列にあるか、図のキャプションが表の解釈をどう変えるかといった、検索において非常に重要となる構造的なレイアウト信号が破壊されてしまうのです。

生成精度の数値は正直なものですが、単独で解釈するのは困難です。著者らは、精度のギャップのうち、どれだけが検索エラーに起因し、どれだけが生成の失敗に起因するのかを詳細に分析（アブレーション）していません。英語のRecall@10がすでに85.86%であることを考えると、失敗の大部分は検索側ではなく生成側にあるはずです。この内訳が明らかになれば、ボトルネックがマルチモーダル推論にあるのか、あるいはMLLMが金融用語を処理する方法というより根本的な問題にあるのかが明確になるでしょう。

1,394個というQAペアの評価セットは、ベンチマークの範囲に対して少なめです。7つのカテゴリと2つの言語に分けると、一部のセグメントは200サンプルを大きく下回ります。カテゴリレベルの知見の統計的有意性は明示されていません。これはベンチマーク論文では珍しいことではありませんが、都合の良い比較対象を作りやすいことを意味します。

引用評価プロトコルは興味深い貢献ですが、人間による評価との相関係数が r = 0.68 というのは、ブロックレベルの根拠付け（グラウンディング）において自動評価を「正解」として扱うには十分な強さではありません。著者らもこの点を認めており、より優れた引用指標に関する今後の研究が明示的に求められています。

なぜこれが金融AIにとって重要なのか

Beancountはプレーンテキストの元帳ファイルで動作するため、過去の取引の照会にはテキストのみのRAGでも妥当と言えます。しかし、より広範な会計業務には、銀行の取引明細書のPDF、スキャンされた請求書、領収書の画像、表やチャートが埋め込まれた年次報告書など、明らかにプレーンテキストではない文書が含まれます。Beancountのエージェントが、元帳のエントリをソース文書と照合する必要がある瞬間（特定の請求がファイル上の請求書と一致するかを確認するなど）、それはまさにFinRAGBench-Vがベンチマークとしているタスクそのものを行っていることになります。

ブロックレベルの引用に関する発見は、このユースケースにおいて最も重要です。エージェントがPDF内の特定のラインアイテムを指し示して元帳入力を正当化しなければならない場合、利用可能な最良のシステムでもブロックレベルの再現率が20〜61%しか達成できないのであれば、それは「監査可能」とは言えません。スキャンされたソース文書を扱うBeancountのパイプラインでは、この数値が大幅に改善されるまで、人間による確認（Human-in-the-loop）が不可欠です。

また、検索モダリティの格差は、文書の取り込みにおいて純粋なテキストのみのパイプラインを採用することに強く警鐘を鳴らしています。領収書の画像には、金額フィールド、ベンダー名、ラインアイテムの位置などのレイアウト情報が含まれていますが、OCRはこれを破壊してしまいます。そのレイアウト情報こそが、行の合計と税額を区別するための鍵であり、FinRAGBench-Vは、マルチモーダルリトリーバーがテキストリトリーバーには不可能な方法でそれを活用できることを示しています。

次に読むべき資料

ColPali: Efficient Document Retrieval with Vision Language Models — FinRAGBench-Vの最高のリトリーバーの基礎となった、視覚的ページ埋め込みアプローチを確立したColQwen2の前身 [arXiv:2407.01449, ECCV 2024]
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — ページをまたがるシングルホップおよびマルチホップの視覚的推論を処理する柔軟なフレームワークで、複数文書の視覚的QAに取り組んでいます [arXiv:2411.04952]
Benchmarking Temporal-Aware Multi-Modal RAG in Finance — 金融マルチモーダルRAGにおける時間感受性を評価する2025年の関連ベンチマークで、FinRAGBench-Vの時間感受性質問カテゴリを直接補完する内容です [arXiv:2503.05185]

LLMエージェントはCFOになれるのか？EnterpriseArenaによる132ヶ月のシミュレーションで明らかになった大きな格差

Sat, 11 Jul 2026 00:00:00 GMT

現在、金融AIにおける最も野心的な問いは「LLMは貸借対照表に関する質問に答えられるか？」ではなく、「LLMは資金を枯渇させることなく、長期にわたって企業の資金を管理できるか？」というものです。Yi Han氏らによる『Can LLM Agents Be CFOs?』（arXiv:2603.23638）では、まさにそれをテストするためにEnterpriseArenaを構築しました。その答えは、「かろうじて可能だが、期待された方法ではない」というものでした。

論文の概要

EnterpriseArenaは、CFOレベルのリソース配分を132ヶ月（11年間）にわたってシミュレーションする環境です。各タイムステップは1ヶ月を表します。エージェントは、企業レベルの財務データ、匿名化されたビジネス文書、およびFRED、CBOE、S&P Globalのデータから抽出されたマクロ経済シグナルの部分的な観測を受け取ります。エージェントには、現金残高の確認、財務記録のレビュー、市場状況の分析、キャッシュフローの予測という4つの操作にまたがる月間20回のツール呼び出し予算が与えられています。そして、決算（照合）、資金調達（株式または負債、結果は確率的）、またはパス（何もしない）の3つの行動から1つを選択しなければなりません。主な制約は、会社の現金残高がすべてのタイムステップで非負（マイナスにならない）を維持しなければならないことであり、これに違反するとエピソードは終了し、スコアはゼロになります。生存を前提として、エージェントはスコアリング計算式「Rev_T × 5 + Cash_T − 5,000 × N_tools」に基づいて最終企業評価額を最大化します。この式では、過剰なツール使用に明示的なペナルティが課されます。

Gemini-3.1-Pro、Claude-Haiku-4.5、GPT-5.4、DeepSeek-V3.1、Llama-3.3-70B、Qwen3.5-397B、Qwen3.5-9Bを含む11種類のLLMが評価されました。また、それぞれ8年と14年の経験を持つ2人の財務専門家によって検証された人間専門家のベンチマークも併せて評価されました。

主な知見

生存率はモデルによって劇的に異なる: Qwen3.5-9Bは実行の80%で生存し、Gemini-3.1-Proは50%、Claude-Haiku-4.5とGLM-5はそれぞれ20%でした。一方で、GPT-5.4、DeepSeek-V3.1、Llama-3.3-70B、Mistral-Small-24B、Mixtral-8x7Bはすべて0%でした。LLM全体の平均生存率は26%です。
モデルのサイズが大きいほど性能が良いとは限らない: Qwen3.5-9B（90億パラメータ、生存率80%、最終評価額7880万ドル）は、Qwen3.5-397B（3970億パラメータ、生存率20%）やGPT-5.4（生存率0%）を圧倒しました。
人間との格差は依然として大きい: 人間のベースラインは生存率100%、最終評価額1億5220万ドル ± 2960万ドルを達成しました。対してLLMの平均は、生存率26%で評価額2820万ドルにとどまりました。
決算処理が決定的なボトルネックである: 人間の専門家はタイムステップの94.3%で決算（照合）を行いますが、LLMの平均は19.3%でした。この行動こそが真実の財務諸表を作成し、その後の合理的な意思決定を可能にするものです。
行動を伴わない情報収集は致命的である: Qwen3.5-397Bはシミュレーション全体を通じて市場分析や予測ツールを高い頻度で使用しましたが、決算はほとんど行わず（決算率0.0%）、資金調達もほとんど要求しませんでした。結果として、何が起きているかを「知って」いながら、資金枯渇により脱落しました。
ツール予算のペナルティが重要: スコアリング計算式は、行動する代わりに強迫的に確認を繰り返すエージェントを罰します。これは現実の機会費用を反映した制約です。

評価できる点と課題

生存を厳しい制約とし、その上で最終評価額を競うという二重目的の設計は、最近のエージェント・ベンチマークの中でも非常に優れた選択の一つです。これは現実のCFOがどのように行動するかを反映しています。つまり、資金が尽きれば成長を最適化することは不可能です。カレンダーの日付や企業アイデンティティを匿名化したことで、モデルが記憶している過去の履歴からパターンマッチングを行うことを防いでおり、これは実際のティッカーや日付を使用する従来の金融ベンチマークよりも純粋な手法の改善と言えます。

著者らがケーススタディを通じて特定した失敗モードの分類は説得力があります。GPT-5.4は99.1%のパス率（ほぼすべてのステップで何もしないという「行動」をとる）を記録した一方で、Qwen3.5-397Bは分析を行動と勘違いしました。これらは行動特性として明確に異なる失敗モードであり、それぞれ異なる対策が必要です。

一方で納得しきれない点もあります。確率的なマクロ環境にはガウスノイズが使用されていますが、著者ら自身が認めているように、これはブラックスワン・イベントや人間の不合理性を再現することはできません。また、月間20回のツール呼び出しという予算設定もやや恣意的です。現実のCFOは自身の記憶に対してこのようなクエリレート制限に直面することはありません。このため、ベンチマークが長期的な財務判断を測定しているのか、あるいはリソース制約下でのRAG（検索拡張生成）の能力を測定しているのかという疑問が残ります。また、単一エージェント構造も著者らが挙げている明示的な限界です。現実のCFOはコントローラー、FP&Aアナリスト、財務チームといった組織階層の中で動いており、この論文ではそれをシミュレートしようとはしていません。

モデルサイズが生存率を予測しないという発見は衝撃的で、おそらく事実でしょうが、そのメカニズムについては十分に説明されていません。著者らは、それが指示に従う能力の欠如なのか、長いコンテキストにおける一貫性の問題なのか、あるいはリスクの較正ミスなのかを完全には解明せずに述べるにとどめています。

なぜこれが金融AIにとって重要なのか

EnterpriseArenaにおける「決算（book-closing）」アクションは、本質的にBeancountのbalance表明（アサーション）および元帳の照合ステップに相当します。つまり、行動する前に財務状態の真実を確定させる瞬間です。LLMがこれを80%の確率でスキップするという発見は、ライトバック（書き戻し）の安全性に関する問題に直結します。行動の前に照合を避けるエージェントは、古い、あるいはハルシネーション（幻覚）による状態に基づいて行動していることになります。Beancountの自動化において、これは照合ステップがエージェントのループ内でオプションではなく、強制かつ検証可能であるべきであることを示唆しています。

132ヶ月というスパンも、数年間にわたる元帳管理と直接的な類似性があります。持続的な状況認識が時間とともに低下するという発見は、5年分の取引履歴を管理するBeancountエージェントにも同様の劣化が予想されることを意味します。たとえエージェントがすべてのデータをコンテキスト内に持っていたとしても、60ヶ月目において一貫した行動をとれるとは限りません。これは、長期稼働するBeancountエージェントセッションにおいて、事後的なクエリだけでなく、定期的な強制照合チェックポイントが必要であることを示唆しています。

Qwen3.5-397Bが陥った「情報収集の罠」は、設計上の有用な警告です。多くの検索ツールを備えたエージェントは、特に行動ミス（元帳の破損）のコストが高い場合、コミットするよりも検索を好む可能性があります。EnterpriseArenaが使用しているようなツール予算の制約は、Beancountのライトバック・エージェントに行動の規律を強制するのに役立つかもしれません。

次に読むべきもの

EcoGym (arXiv:2602.09514) — 自動販売機、フリーランス、オペレーションの各環境で1,000ステップ以上にわたる長期的な経済ベンチマーク。単一のモデルがすべてを支配することはないことを示しており、EnterpriseArenaの失敗モードが特定のベンチマーク設計特有のものではないことを示唆しています。
AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — ワークフロー設計をMCTSとLLMフィードバックを用いたコード空間探索として再定式化。手動で設計されたエージェントの行動が失敗することをEnterpriseArenaが示したならば、より優れたパイプラインを自動的に発見するための次のステップとしてAFlowが考えられます。
ToolLLM: Facilitating Large Language Models to Master 16,000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — ツール使用のトレーニングと評価に関する基礎的なフレームワーク。ToolLLMでツール呼び出しの挙動がどのように学習されるかを理解することで、EnterpriseArenaにおける「行動回避」の失敗がトレーニングの問題なのか、プロンプトの問題なのかを明確にできます。

WildToolBench: なぜ現実世界のツール利用においてLLMのセッション精度は15%を超えないのか

Fri, 10 Jul 2026 00:00:00 GMT

私が追跡してきたツール利用のベンチマーク（BFCL、ToolBench、τ-bench）には、共通の設計上の欠陥があります。それは、ベンチマークの作成者が想像したユーザーの行動に基づいてタスクが構築されている点です。ICLR 2026に採択されたWildToolBenchは、実際のユーザーログに立ち返り、ユーザーが実際に何をしているのかを問い直しています。その答えは衝撃的なものでした。評価された57のLLMのうち、セッション精度が15%を超えたモデルは一つもありませんでした。

論文について

AlibabaのPeijie Yu、Wei Liu、Yifan Yang氏らは、WildToolBench (arXiv:2604.06185) を発表しました。これは、本物のユーザー行動パターンから抽出された1,024のタスクを含む256のマルチターン対話シナリオのベンチマークであり、約1,600のパブリックAPIに基づいています。中心的な主張は、既存のベンチマークが飽和状態にあるのはモデルが優れているからではなく、タスクが人工的だからであるという点です。現実のユーザーはリクエストをひとまとめにし、2ターン前に共有したコンテキストを省略し、ツールの質問、雑談、説明の要求を——時には一つのメッセージ内で——切り替えます。WildToolBenchは、これらの失敗モードを3つの構造化されたチャレンジカテゴリに落とし込み、タスクレベルの精度と、対話内の4つのタスクすべてに成功する必要がある、より厳格なセッションレベルの精度の両方を測定します。

主なアイデア

ほとんどのモデルでセッション精度が1桁台に崩壊: Gemini-2.0-Flash-Thinkingがセッション精度14.45%で首位、Claude-4-Sonnetが12.50%、GPT-4oが11.72%と続きます。4ターンのセッションで全タスクをクリアするのは非常に難しく、タスク精度が60%あってもセッション精度は15%未満になります。これは、あらゆるやり取りにかかる「複合確率の税金」と言えます。
構成的オーケストレーションが最大の難所: 順次実行と並列実行が混在したツールのトポロジーでは、トップモデルでもタスク精度が25%に制限されます。これに対し、純粋な並列または順次チェーンでは54〜62%です。タスクが並列展開の後に順次マージを必要とする場合、現在のどのモデルも確実に対処できないほど調整問題が深刻化します。
隠れた意図は、これまで測定された以上の大きなギャップ: WildToolBenchはタスクの100%に暗示的またはターンを跨ぐ情報が含まれるようにしていますが、BFCL v3ではわずか15.7%です。不足している情報が2ターン以上前にある長期依存タスクは最も困難なサブタイプであり、タスクレベルでさえ50%を超えるモデルはありません。
指示の遷移がエラーを線形的に増幅させる: ポリシーの切り替え（ツールタスク → チャット → 明確化の要求 → ツールタスク）が1つ増えるごとに、精度は約5〜15パーセントポイント低下します。3つの遷移が発生すると、最も影響を受けるモデルでは30ポイントも低下します。著者らはこれを「自己条件付け（self-conditioning）」と呼び、過去の回答がその後の指示の解釈に偏りを与え、セッションの途中で修正するのが困難になると指摘しています。
最適パス率（Optimal Path Rate）は43%以下: モデルがタスクを正しく完了できたとしても、余計なAPI呼び出しを消費してしまいます。Claude-4-Sonnetが最高の最適パス率42.74%を記録しましたが、これは正しい完了の大部分が必要以上のステップを踏んでいることを意味し、本番システムにおけるレイテンシとトークンコストに直結します。
ツール利用特化型モデルが汎用フロンティアモデルに劣る: xLAM-2-70BやToolACE2-8Bは、関数名の間違いによるエラー率が30%を超えており、GPT-4oやClaude-4-Sonnetよりも悪い結果となりました。限定的なツール利用コーパスでのファインチューニングは、野生のユーザー行動への分布シフトに対して、頑健性（ロバストネス）ではなく脆弱性を生んでいるようです。

何が妥当で、何がそうでないか

ベンチマークの設計は、最も重要な部分で強力です。タスク精度とセッション精度の区別は正に適切です。失敗モードの連鎖こそが現実の導入を困難にする要因であり、以前の多くの研究はタスクレベルの数値を報告することでこれを隠蔽していました。3つのチャレンジ分類（構成的オーケストレーション、隠れた意図、指示の遷移）は動機付けが明確で、実証的に裏付けられています。チャレンジタイプごとの性能低下曲線は現実的で顕著です。

弱点はスケールです。256のシナリオから得られた1,024のタスクは、研究成果としては信頼に値しますが、57のモデルを継続的に追跡するリーダーボードとしては薄いと言わざるを得ません。著者らもこれを直接認めており、今後の課題として自動スケーリングパイプラインに言及しています。もう一つの問題は「実際のユーザーログに基づいている」という主張の扱いです。最終的なタスクは一部合成されており、シードパターンからマルチエージェントシステムによって構築され、その後人間のアノテーターによって検証されています。主張は事実に根ざしていますが、データは逐語的な「野生」のものではなく、「野生にインスパイアされた」ものです。これは15%という天井をどれほど文字通りに解釈すべきかに影響します。生成パイプラインが現実のユーザーが実際には示さないような人為的な困難さを導入している場合、ギャップの一部は縮まる可能性があります。

また、指示遷移の分析をアーキテクチャ上の主張とすることにも懐疑的です。論文はこれを根本的な限界としていますが、RLHFのファインチューニング目標とマルチモーダルなユーザーセッション間のトレーニング分布の不一致の方が、より簡潔な説明（オッカムの剃刀）に思えます。これは構造的な問題ではなく、対処可能な問題です。

なぜこれが金融AIにとって重要なのか

この3つの失敗モードは、実際のユーザーがBeancountの書き込み（ライトバック）エージェントとやり取りする方法とほぼ完璧に一致します。ユーザーが「先月の食費はいくらだった？ついでに今日のホールフーズのレシートを追加しておいて」と言うのは、1つのターンにまとめられた構成的タスクです。続いて「やっぱり42ドルじゃなくて47.23ドルにして、調べ直したから」と言うのは、エージェントがセッション状態を追跡する必要があるパラメータ修正です。さらに「そのカテゴリーは合ってる？」と聞くのは明確化の要求であり、エージェントは今終わったばかりの書き込み操作を再実行してはいけません。混在型オーケストレーションにおける25%の限界と、指示遷移による30ポイントの低下は、まさに帳簿エージェントが実際のユーザーセッションを処理する際に現れる失敗モードそのものです。

ツール利用特化型モデルが汎用フロンティアモデルに劣るという発見は、特に重要です。Beancount専用のツール呼び出し例を使って、より安価な小型のオープンモデルをファインチューニングすることを検討しているなら、WildToolBenchは「特化が実際のユーザー行動の分布に対する頑健性を犠牲にする可能性がある」という直接的な警告となります。最適パス率の発見も重要です。タスク完了に2倍のAPI呼び出しを行うエージェントは、単に非効率なだけではありません。書き戻し操作において、冗長な中間呼び出しは帳簿を不整合な中間状態にするリスクを孕んでいます。

次に読むべきもの

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (arXiv:2307.16789, ICLR 2024) — WildToolBenchが明示的に対置させている基礎的なトレーニングフレームワーク。その合成評価設計を理解することで、ライブ実行が何を付加するかが明確になります。
τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains (arXiv:2406.12045) — 現実的なマルチターン・ツール利用に関する最も近い先行研究。τ-benchのリテール/航空ドメインとWildToolBenchのパブリックAPIカバレッジを比較することで、課題がどれほど一般化されるかがわかります。
AFlow: Automating Agentic Workflow Generation (arXiv:2410.10762, ICLR 2025 oral) — 指示遷移の問題が、学習データのスケーリングではなく、より優れたエージェントワークフローを自動的に発見することで解決可能であるならば、AFlowはそのための最も信頼できるメカニズムです。

LLMの信頼度とキャリブレーション：研究が実際に示していることの調査

Thu, 09 Jul 2026 00:00:00 GMT

先週、私はReDActについて取り上げました。これは、安価なモデルの不確実性がキャリブレーションされた閾値を超えた場合に、エージェントの決定を高価なフォールバックモデルにルーティングする手法です。その論文では「不確実性」について多くの抽象的な議論がなされていますが、この分野でその測定とキャリブレーションについて実際に何が解明されているのかを理解するために、一旦立ち止まって考える価値があります。Gengらによる "A Survey of Confidence Estimation and Calibration in Large Language Models" (NAACL 2024) は、その出発点として最適です。これは、何が機能し、何が機能せず、何がまだ測定されていないのかを体系的に分類したものです。

論文の概要

Geng、Cai、Wang、Koeppl、Nakov、Gurevychらは、選択式QAから自由形式の生成、機械翻訳に至るまでのタスクにおけるLLMの信頼度推定とキャリブレーションに関する新興の文献を調査しています。核心となる問題は、LLMが非常に正確であると同時に、外部からは見分けがつかない形で完全に信頼できない場合があることです。この調査では、解決策の範囲を2つの主要なブランチに整理しています。1つはモデルの内部状態へのアクセスを利用するホワイトボックス手法、もう1つはモデルを不透明なものとして扱うブラックボックス手法です。そして、それぞれの中でさらに信頼度の推定と、事後的なキャリブレーションを区別しています。

この論文はNAACL 2024（6577–6595ページ）で発表されました。2023年11月の投稿から、ダルムシュタット工科大学、MBZUAI、モハメド・ビン・ザイド人工知能大学にまたがるチームによって2024年3月に改訂されました。

主要なアイデア

ロジットによるホワイトボックスの信頼度: 最も単純なアプローチは、トークンレベルの確率または長さで正規化した対数尤度を信頼度シグナルとして使用することです。これらの手法は機能しますが、根本的な曖昧さに直面します。低いトークン確率は、事実に対する信頼度が低いことを反映している場合もあれば、単に珍しい言い回しを反映している場合もあります。つまり、モデルは基礎となる事実に確信を持っていても、単語の選択に確信が持てない可能性があるのです。
一貫性ベースのブラックボックスの信頼度 (SelfCheckGPT): Manakulら (EMNLP 2023) は、複数の補完（completion）をサンプリングし、BERTScore、NLI、またはn-gramの重複を使用してそれらの相互の一貫性をスコアリングします。ロジットへのアクセスは不要です。重要な洞察は、LLMがよく知っている事実については繰り返しのサンプルが収束し、ハルシネーション（幻覚）を起こした事実については発散するということです。
意味論的エントロピー: Farquharら (Nature, 2024) は、エントロピーを計算する前に、意味的に同等な回答をクラスタリングします。LLMは「パリ」と「フランスの首都」を異なる言い回しで表現するかもしれません。生のトークンエントロピーはこれらを発散したものとして扱いますが、意味論的エントロピーは扱いません。これは、トークンレベルの一貫性を超えた質的な前進であり、調査の中で文脈化されています。
言語化された信頼度の破綻: 信頼度のパーセンテージを出力するように求められると、モデルは過信（overconfidence）に陥ります。実証研究（Grootら、TrustNLP at ACL 2024）によると、GPT-3、GPT-3.5、Vicunaはいずれも、言語化された信頼度において0.377を超える平均期待キャリブレーション誤差（ECE）を示し、実際の正解率に関係なく予測が90〜100%の範囲に集中します。評価された中で最もキャリブレーションが優れていたGPT-4でさえ、言語化された信頼度を使用して正誤を判別した場合のAUROCは約62.7%にすぎず、偶然をわずかに上回る程度です。
タスクによって異なるキャリブレーション手法: 分類タスクでは、空の「[N/A]」プロンプトで推定されたクラス事前分布のバイアスを差し引く文脈的キャリブレーション（contextual calibration）や、位置のデバイアス（PriDE）が既知の体系的バイアスに対処します。生成タスクでは、Sequence Likelihood Calibration (SLiC) がランク付けされた補完に基づいてモデルをファインチューニングします。最も単純な事後修正である温度スケーリング（temperature scaling）は、依然として多くの設定で競争力を維持しています。
統一されたベンチマークの欠如: この調査における最も厳しい構造的指摘は、タスクやドメインを越えて信頼度推定手法を網羅する単一のベンチマークが存在しないことです。これにより、手法を厳密に比較することがほぼ不可能になっています。この分野では、リンゴとオレンジを比較しているような状況です。

何が有効で、何がそうでないか

タクソノミー（分類法）は堅実です。ホワイトボックスとブラックボックスの区別はシステム設計において真に有用であり、ロジットベースの手法に関する扱いはその限界について正直です。著者らは、トークン確率が事実に関する信頼度と語彙的な不確実性を混同していることを直接指摘しています。実務家はこの混同を過小評価しがちです。

この調査で不満が残る点は、主に記述的であることです。手法を直接比較した実験的ベンチマークはほとんどなく、著者らもこれを限界として明示的に認めています。設計空間の明確なマップは得られますが、新しいタスクに対してどの手法を使用すべきかという指針は得られません。

言語化された信頼度の結果（GPT-4自身の自己申告による信頼度のAUROCが約62.7%であること）は、LLMを本番環境に導入するすべての人にとって定石的な知識であるべきです。しかし、そうなっていません。いまだに「1〜10のスケールで、あなたの確信度はどのくらいですか？」と問い、その回答を有意義なものとして扱うプロンプトが使われています。それは無意味です。

また、この調査はRLHFのキャリブレーションに関する問い（人間によるフィードバックを用いた事後学習は、モデルのキャリブレーションを改善するのか、それとも悪化させるのか）についても薄弱です。両方の証拠が存在しますが、調査では概ねこれを回避しています。

なぜこれが金融AIにとって重要なのか

ReDActは、その安全性の根拠を、安価なモデルからのキャリブレーションされた不確実性シグナルに置いています。この調査は、それが実際にはいかに困難であるかを明らかにしています。ロジットベースのシグナルはホワイトボックス設定で利用可能ですが、語彙的および事実的な不確実性を混同します。一貫性ベースの手法はブラックボックス設定で機能しますが、1つの決定につき複数のサンプルを必要とします。これは、トランザクションエントリのバッチを処理する高スループットなBeancount書き戻しエージェントにとってはコストがかかりすぎます。

Bean Labsにとって最も実行可能な知見は、意味論的エントロピーです。これは一貫性をスコアリングする前に意味的に同等な回答をクラスタリングするもので、モデルが同じ借方・貸方の関係を構文的に異なる複数の形式で表現する可能性がある元帳エントリ（ledger entries）において、まさに重要となるものです。Beancountエージェントは、サンプリングされた元帳エントリの補完において、生のトークンレベルの分散ではなく、意味論的クラスタリングを使用して、勘定科目名や金額のハルシネーションを検出する必要があります。

言語化された信頼度のキャリブレーション失敗は、ユーザーに対して「AIの信頼度は？」を表示するあらゆるUIへの直接的な警告です。モデルが生成する数値を信頼してはいけません。代わりに外部のキャリブレーターや一貫性ベースの手法を使用するか、あるいは全く表示しないようにすべきです。

次に読むべきもの

Farquhar et al., "Detecting hallucinations in large language models using semantic entropy," Nature, 2024 — この調査フレームワークから導き出された最も厳密な手法です。調査の要約ではなく、全文を読む価値があります。
Manakul et al., "SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models," EMNLP 2023 (arXiv:2303.08896) — 定石的な一貫性ベースの手法です。ブラックボックスの信頼度シグナルを導入する前に理解しておくことが不可欠です。
Groot et al., "Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models," TrustNLP at ACL 2024 (arXiv:2405.02917) — 言語化された信頼度がモデルやタスクを越えてどのように破綻するかについての、最も徹底的な実証的監査です。

JSONSchemaBench: 現実世界のスキーマの複雑さがLLMの構造化出力の保証を破壊する

Wed, 08 Jul 2026 00:00:00 GMT

多くのチームは、制約付きデコードを解決済みの問題として扱っています。つまり、JSONスキーマを追加すれば、有効なJSONが返ってくるというものです。JSONSchemaBench (arXiv:2501.10868) は、9,558個の現実世界のスキーマに対してその前提をテストする最初の体系的な試みであり、その結果はマーケティングが示唆するものほど安心できるものではありませんでした。

論文の概要

Saibo Geng、Hudson Cooper、Michał Moskal、およびMicrosoft Researchの同僚たちは、実際の生産ソースから抽出された9,558個のスキーマのベンチマークであるJSONSchemaBenchを発表しました。これには、GlaiveAIの関数呼び出しシグネチャ、難易度（TrivialからUltraまで）で層別化されたGitHubリポジトリ、Kubernetes API設定、Snowplowイベント分析スキーマ、およびJSONSchemaStoreコレクションが含まれます。彼らは、Guidance、Outlines、Llamacpp、XGrammar、OpenAI Structured Outputs、Geminiの6つの制約付きデコードフレームワークを、カバレッジ（フレームワークが処理できるスキーマの割合）、効率（制約なし生成と比較した1秒あたりのトークンのオーバーヘッド）、品質（下流タスクの精度）の3つの軸で評価しました。評価グリッドには、準拠するエンジンがサポートすべき45の機能カテゴリを文書化した公式のJSON Schema Test Suiteも含まれています。

核心となる主張は、スキーマの複雑さが、能力のあるフレームワークと脆弱なフレームワークを分ける決定的な変数であり、3つの軸すべてにおいて支配的なフレームワークは存在しないということです。

主なアイデア

スキーマの複雑さによってカバレッジが崩壊する。 単純なGlaiveAIスキーマでは、すべてのフレームワークが86%以上のスコアを記録しました。しかし、多層のネスト、再帰的定義、複雑なパターン制約を持つGitHub-Hardスキーマでは、Guidanceは41%、Llamacppは39%、XGrammarは28%、Outlinesは壊滅的な3%まで低下しました。OpenAIはGitHub-Hardでわずか9%にしか達せず、Geminiは中程度の複雑さ以上のスキーマでは有効な出力をまったく生成できませんでした。
KubernetesはXGrammarの特定の弱点を露呈させる。 XGrammarの速度の主張にもかかわらず、Kubernetesスキーマでのカバレッジはわずか7%でした。これは、これらのスキーマが文脈依存のパターンに依存しており、XGrammarの文脈自由な事前計算では処理できないためと考えられます。Kubernetes設定を含むベンチマークに対するカバレッジは、プロダクション用エージェントにとって不可欠です。
制約不足はコンパイルの失敗よりも危険である。 XGrammarは、JSON Schema Test Suiteに対して38件の制約不足の失敗を示しました。つまり、宣言されたスキーマに違反するJSONを出力しながら、成功を黙って報告するということです。Guidanceのこのような失敗はわずか1件でした。書き戻しエージェント（write-back agent）にとって、コンパイルエラーは設計時にキャッチされますが、制約不足の失敗は実行時にシグナルなしでデータを破損させます。
Guidanceのファストフォワーディングは真の50%の高速化を実現する。 長い決定論的なシーケンス（固定されたオブジェクト構造内のフィールド名など）が存在する場合、Guidanceはデコードステップごとに複数のトークンを進めることができます。A100上のLlama-3.1-8Bでは、制約なし生成が15〜16ミリ秒であるのに対し、Guidanceは出力トークンあたり6〜9ミリ秒で動作します。Outlinesは30〜46ミリ秒と制約なし生成よりも遅く、これは主にスキーマあたり3〜8秒かかる事前のオートマトンコンパイルが原因です。
制約付きデコードは推論精度をわずかに向上させる。 GSM8K（数学）では、Guidanceによって精度が80.1%（制約なし）から83.8%に向上しました。Last LetterやShuffle Objectsでは、向上は1〜3ポイントの範囲でした。これは、JSON形式を強制すると回答の品質が低下するという広く引用されている懸念とは対照的ですが、その効果は、形式の選択がフレームワーク選定の主な動機になるほど大きくはありません。
すべての45のJSONスキーマ機能カテゴリをカバーするフレームワークは存在しない。 Guidanceは13をカバーし、LlamacppとXGrammarはそれぞれ1つ、Outlinesは0でした。実用的な意味合いとしては、if/then/else、unevaluatedProperties、または再帰的な$ref定義を使用するスキーマは、内部のエンジンに応じて予測不可能な動作をすることになります。

評価できる点とそうでない点

このベンチマークの最大の貢献は、スキーマの調達元にあります。これまでの評価では、おもちゃのようなスキーマや単一ソースのコレクションが使用されていました。関数呼び出しシグネチャと並んでKubernetes設定を含めることは、適切な種類の対抗的な多様性です。また、複雑さの層別化（TrivialからUltraまで）により、実務者にキャリブレーション曲線を提供します。スキーマがGlaiveAIの関数呼び出しのようであれば、XGrammarもGuidanceも問題ありません。しかし、Kubernetesのマニフェストのようであれば、選択肢は急速に狭まります。

主な弱点は、シングルサンプルのグリーディ評価である点です。スキーマごとに1回の生成でカバレッジを測定することは、真の能力を過小評価する可能性があります。フレームワークが20%の確率で失敗しても、再試行すれば成功するかもしれないからです。論文はこの点を認めていますが、失敗時に再試行するプロダクションシステムにとって重要な、温度サンプリングによるpass@kの結果は報告されていません。

また、比較において比較不可能なモデルが混在しています。オープンソースのフレームワーク（Guidance、Outlines、Llamacpp、XGrammar）はLlama-3.2-1Bでテストされていますが、OpenAIとGeminiは独自の非公開モデルを実行しています。OpenAIのGitHub-Hardにおける9%のカバレッジは、制約付きデコードのアーキテクチャだけでなく、モデルの能力を反映している可能性があります。公平な比較には、制御されたモデルへのアクセスが必要ですが、著者がプロプライエタリなプロバイダーにそれを強制することは当然不可能です。

なぜこれが財務AIにとって重要なのか

すべてのBeancount書き戻しエージェントは、構造化された出力を生成します。エージェントが.beancount構文に変換する前にJSONとしてBeancountディレクティブを出力する場合、あるいはJSONスキーマを介してツールを呼び出す場合、そのJSON生成の信頼性は些細なことではなく、システム全体の成否を左右します。FinTraceの論文は、フロンティアモデルがツールの出力に対する推論に失敗することを示しました。JSONSchemaBenchは、それとは別の問題、すなわち推論の前段階であるフォーマットレイヤーが、非準拠の出力を黙って生成する可能性があることを明らかにしています。

Kubernetesの結果は、Beancountにとって特に示唆に富んでいます。元帳（ledger）のスキーマは、単純なキーと値の集まりではありません。勘定科目の階層、トランザクションのメタデータ、およびタグ構造は、Kubernetes APIオブジェクトに似た、ネストされた再帰的パターンを作成します。Kubernetesで7%のスコアしか出せないフレームワークは、トークンあたりのオーバーヘッドがいかに高速であっても、複雑な元帳スキーマに対応する準備ができていません。

特に懸念されるのは、制約不足の失敗モードです。XGrammarを使用しているBeancountエージェントは、フレームワーク内部の検証チェックには合格するものの、実際のスキーマには違反するトランザクションを出力する可能性があり、エージェントが再試行する理由もなくなります。目に見える失敗よりも、サイレントな破損の方がはるかに深刻です。

次に読むべきもの

XGrammar (arXiv:2411.15100, Dong et al.) — テストされた中で最も高速なフレームワークの一つに関する技術論文。文脈依存/非依存のトークン分割と、なぜKubernetesスキーマがそれに負荷をかけるのかを説明しています。
Grammar-Aligned Decoding / ASAp (NeurIPS 2024) — 制約付きデコードにおけるトークンマスキングがモデルの確率分布を歪める可能性があることを示し、修正されたサンプリングアルゴリズムを提案しています。これは、ベンチマークが間接的にのみ測定している品質に関する懸念の理論的基礎となります。
XGrammar-2 (arXiv:2601.04426) — マルチターンのセッション中にスキーマ自体が変化するエージェント環境において、XGrammarを動的スキーマに拡張するフォローアップ論文。アクティブな勘定科目の種類に基づいて出力形式を適応させるBeancountエージェントに直接関連します。

FinMCP-Bench: MCP下での実世界の金融ツール利用に向けたLLMエージェントのベンチマーク

Tue, 07 Jul 2026 00:00:00 GMT

MCPは、LLMツール利用の事実上の配線標準となりました。Anthropicは2024年後半にこれを導入し、2026年初頭までに主要なすべてのモデルプロバイダーがこれを採用しました。FinMCP-Bench (arXiv:2603.24943, ICASSP 2026) は、金融エージェント専用の実際のMCPツールサーバー上に構築された最初のベンチマークであり、その標準化された配線が、エージェントが有用な金融業務を行うのに実際に役立っているかどうかを判断するのに最適なタイミングで登場しました。

論文の概要

Jie Zhu、Yimin Tian、およびAlibaba Cloud Qwen DianJinチーム、YINGMI Wealth Management、蘇州大学の同僚らは、10の金融シナリオカテゴリと33のサブシナリオをカバーする613サンプルの評価スイートであるFinMCP-Benchを発表しました。ツールはダミーではなく、Qieman APP金融アシスタントの実際の運用ログから抽出された、65の実際のMCP準拠金融ツールサーバーがベンチマークを支えています。著者らはサンプルを3つのタイプに分類しています：145の単一ツール、249のマルチツール、および219のマルチターンです。彼らは、Qwen3ファミリー（4B、30B、235Bパラメータ、すべて拡張推論付き）、DeepSeek-R1、GPT-OSS-20B、Seed-OSS-36Bの6つのモデルをテストしました。主要な評価指標は、ツール適合率（Tool Precision）、ツール再現率（Tool Recall）、ツールF1、およびシーケンス内のすべてのツール呼び出しが正確である必要がある完全一致率（Exact Match Rate, EMR）です。

主なアイデア

評価基盤としてのMCP: 合成APIスキーマではなく実際のMCPサーバー定義を使用することで、ベンチマーク評価と、実際に導入された金融システムでエージェントが直面することとの間の大きな溝を埋めています。
3方向の難易度分割: 単一ツール、マルチツール、マルチターンのサンプルは、単に量の違いではなく、質的に異なる失敗モードを露呈させています。
マルチターンの崩壊: 最高のモデル（Qwen3-235B）は、単一ツールで60%のEMR、マルチツールで10.62%のEMR、マルチターンで3.08%のEMRを達成しました。単一ツールからマルチターンへの低下は20倍に達します。
ツールF1はより寛容: 同じモデルが3つの設定全体で66.85%、69.42%、41.56%のTF1（Tool F1）を記録しており、モデルはしばしば正しいツールを選択しているものの、順序、パラメータ設定、または会話の追跡に失敗していることを示しています。
単一ツールでは再現率が適合率を上回る: モデルは不確かな場合、呼び出し不足よりも過剰にツールを呼び出す傾向があります。これは金融タスクにおいてはより安全な失敗モードですが、それでもAPI呼び出しの無駄や推論トレースのノイズを意味します。
非単調なサイズスケーリング: Qwen3-30BはすべてのサブシナリオでQwen3-4Bを常に上回るわけではなく、マルチステップのツール利用において「大きいほど常に勝る」という仮定を打ち破っています。

有効な点とそうでない点

単一ツールの例のソースとして実際の運用ログを使用していることは、ここでの最も強力な方法論的選択です。これにより、研究者が考案したシナリオではなく、実際のユーザー行動にベンチマークが基づいており、これは金融AIの文献では稀なことです。マルチツールとマルチターンのサンプルは、依存関係グラフとロールプレイングプロンプトを使用して合成的に拡張されています。これはラベル付けコストを考えると合理的ですが、リスクも伴います。合成プロセスは、実際のユーザーが書くものよりもクリーンで、意図が明確すぎるクエリを生成する傾向があるからです。マルチターンにおける3.08%のEMRは衝撃的ですが、慎重に解釈する必要があります。EMRは完全なシーケンスが正確であることを要求するため、中間のツール呼び出しが1つでも間違っていればタスク全体が失敗となります。これは厳格であり、実運用基準としては非現実的とも言えます。TF1のような部分点指標の方が、よりきめ細かな現状を伝えています。

この論文が扱っていない点：パフォーマンスの差が、主にインプットの理解の問題（モデルがユーザーの要望を誤解している）、アウトプットのフォーマットの問題（意図は正しいがツール呼び出しが不正）、または推論の問題（誤った中間結論）のどれに起因するのかについての分析がありません。その分解なしには、エンジニアリングの努力をどこに投入すべきかを知ることは困難です。また、この論文はモデルを単独で評価しており、検証やリフレクションのステップを追加することでマルチターンの状況が変わるかどうかのテストは行われていません。

また、このベンチマークはQieman固有の65個のツールに深く結びついており、異なるツールセットを持つ他の金融プラットフォームに結果をどの程度転用できるかには限界があります。

金融AIにとってなぜ重要なのか

FinMCP-Benchは、Beancountの書き戻し（write-back）エージェントが実際に行うことに最も近い公開評価です。ユーザーのリクエストを受け取り、適用されるツール（またはツールのチェーン）を特定し、それらを順番に呼び出し、フォローアップのターンを処理します。3.08%というマルチターンのEMRは、厳しい現実を突きつけています。日付範囲にわたる一連の勘定科目間の取引を再分類し、照合し、レポートを生成するといったマルチステップの帳簿修正を行うBeancountエージェントは、現在のモデルが完全一致基準ではほぼ例外なく失敗するような、まさにマルチターン・マルチツールのタスクです。

MCPの枠組みは直接的に関連しています。BeancountのPython API、beanqueryインターフェース、およびFavaのRESTレイヤーはすべてMCPサーバーとしてラップできます。FinMCP-Benchは、プロトコルがボトルネックではなく、ツール呼び出しシーケンスにわたる推論こそが課題であることを示しています。

ツールの再現率が適合率を上回る（モデルが過剰に呼び出す）という発見は、書き戻しの安全性にとっても重要です。読み取りだけで済む場合に帳簿変更ツールを呼び出してしまうエージェントは、気づかないうちに帳簿を破損させる可能性があります。書き戻しエージェントの主要な安全信号としては、再現率重視ではなく、適合率重視の評価指標を採用すべきです。

次に読むべきもの

JSONSchemaBench (arXiv:2501.10868) — 1万個のJSONスキーマにわたる構造化出力の信頼性を評価。FinMCP-Benchにおけるツール呼び出しフォーマットの失敗が、制約付きデコーディングの問題であるかどうかに直接答えます。
ToolLLM (arXiv:2307.16789, ICLR 2024) — FinMCP-Benchがその対照として位置づけている基礎的なツール利用トレーニングフレームワーク。その深さ優先探索ツリーの探索を理解することで、FinMCP-Benchの運用ログ手法が何を付加しているのかが明確になります。
WildToolBench (arXiv:2604.06185) — 実世界の野生のユーザークエリにおけるツール利用を評価。野生のユーザー行動に対して15%の精度を超えるモデルは存在しないというその発見は、FinMCP-Benchの運用ログアプローチを補完するものです。

FinTrace：金融タスクにおけるLLMツール呼び出しのトラジェクトリレベル評価

Mon, 06 Jul 2026 00:00:00 GMT

FinTrace（arXiv:2604.10015）は、前回記録したFinToolBenchの1週間後に発表されました。これら2つの論文は、互いに直接的な議論の関係にあります。FinToolBenchが「エージェントが適切なツールを呼び出しているか」を測定するのに対し、FinTraceはより困難な問いを投げかけます。「エージェントが適切なツールを呼び出したとしても、その結果をもとに実際に推論を行っているか？」という点です。この区別こそが論文の核心であり、Beancountの書き戻しエージェント問題全体の核心でもあると考えています。

論文の概要

CaoらはFinTraceを紹介しています。これは、実世界の34の金融タスクカテゴリーにわたる、初級・中級・上級の難易度階層を含む800件のエキスパートによるアノテーション済みトラジェクトリのベンチマークです。著者らは、4つの軸に沿って整理された9つの指標からなるルーブリックを中心に評価を構成しています：アクションの正確性（ツール呼び出しF1、タスク関連性）、実行効率（ステップ効率、冗長性スコア）、プロセス品質（論理的展開、情報活用、進行スコア）、そして出力品質（タスク合格率、最終回答品質）。彼らは13のLLMを評価し、さらにファインチューニング用にキュレーションされた8,196件の優先トラジェクトリデータセットであるFinTrace-Trainingを公開しました。

中心的な主張は、フロンティアモデルはツールの選択を習得しているものの、より困難なステップである「ツールが返した情報を活用する」ことにおいて体系的に失敗しているという点です。ベンチマークでは、情報活用、論理的展開、進行スコアについては5段階評価で調査し、ツール呼び出しF1とステップ効率についてはアルゴリズム指標で調査しています。

主要なポイント

最高性能のモデルであるClaude-Opus-4.6は、ツール呼び出しF1で0.896という強力な選択能力を達成しましたが、「情報活用」では5点満点中3.23点にとどまりました。これは出力に関連する4つの指標の中で最も低いスコアです。
Claude-Opus-4.6のタスク合格率は2.65/5、最終回答品質は3.34/5です。トップモデルでさえ、一貫して正確で完全な回答を生成することはできていません。
Qwen-3.5-9Bは特異なパターンを示しました。ツールをほとんど呼び出さないため（ツール呼び出しF1は0.109）、ステップ効率（1.000）と冗長性（1.000）がほぼ完璧でした。効率的ですが、役に立ちません。
FinTrace-Trainingでの学習により、中間プロセス指標は改善されました（DPOにより論理的展開は2.29から2.56へ、進行スコアは2.00から2.30へ上昇）。しかし、最終回答品質はボトルネックのままでした。小型モデルにおいて、どのバリエーションも1〜5段階評価で平均1.21を大きく超えることはありませんでした。
DPOは、壊滅的な失敗モードの抑制においてSFTを上回りました。論理的展開のスコアが1となる割合は、11.9%（SFT）から9.5%（DPO）に低下しました。
13モデルすべてに共通して最も低かったサブカテゴリーは「推論QA（Reasoning QA）」であり、Claude-Opus-4.6でさえ総合スコアは0.62にすぎませんでした。これは最強のフロンティアモデルであっても直面する高い壁です。

評価できる点と課題

ツールの選択とツールの推論は分離可能であるという中心的な知見は、十分な根拠に基づいたものであり、4軸のルーブリックは真の貢献と言えます。FinToolBenchのような従来のベンチマークは実行トレースで止まっていましたが、FinTraceはLLMによって判定されるプロセス品質指標を追加し、その間に何が起きているかを明らかにしました。100サンプルの検証における評価者間合致度（Cohen's κ）が0.89であったことは、一部LLM判定に基づいたベンチマークとしては心強い結果です。

とはいえ、いくつかの手法の選択により、数値を額面通りに受け取ることには限界があります。34のタスクカテゴリーは本論文内では列挙されておらず、付録Bに後回しにされています。そのため、それらが実世界の金融実務をどの程度代表しているのか判断できません。難易度階層はベンチマーク独自のクエリプール内のパーセンタイル順位で定義されていますが、これは循環的な指標です。「難しい」とは、他の800のトラジェクトリと比較して珍しいということを意味するだけで、絶対的な意味での難しさではありません。

ファインチューニングの分析には不満が残ります。Qwen-3.5-9BをFinTrace-Trainingでトレーニングすると中間的な推論は改善されますが、最終的な回答品質は損なわれたままです。論文はこれをプロセスと出力の「断絶（disconnect）」に帰していますが、その理由は説明されていません。最も妥当な説明、つまり9Bモデルはトラジェクトリの品質に関わらず、金融タスクに必要な事実の想起や算術能力が不足しているという点については触れられていません。DPOの結果がQwen-3.5-9Bについてのみ示されているため、より大きなモデルがより恩恵を受けるのかどうかも不明です。

また、総合スコアの集計方法にも懐疑的です。アルゴリズム指標（F1 ∈ [0,1]）と、[0,1]に正規化した1〜5のリッカート尺度によるLLM判定スコアを組み合わせて平均化することは、全く異なる種類の失敗を混同させてしまいます。間違ったツールを呼び出すモデルと、正しいツールを呼び出しておきながらその出力を無視するモデルは、故障の性質が異なります。

金融AIにとっての重要性

この中心的な知見は、Beancountの書き戻し問題に直結します。Beancount CLIツールを確実に呼び出すものの、その出力を誤解する（例えば、貸借対照表のレスポンスをパースして間違った勘定科目に転記する）エージェントは、自動化しないよりも悪質です。カジュアルなレビュー担当者には正しく見える、自信満々に間違った元帳エントリを生成してしまうからです。

「情報活用」指標は、あらゆるBeancountエージェントにおいて最も注意深く監視すべき指標です。管理された金融ベンチマークにおいて、利用可能な最高モデルがこの指標で3.23/5にとどまっているという事実は、いかなる本番環境への導入においても制約条件となるはずです。このスコアが一貫して4.0を超えるようになるまでは、あらゆる書き戻し操作において人間の査読を必須とすべきだという主張を裏付けています。

FinTraceはまた、先週ReDActが示唆した内容も裏付けています。正しいアーキテクチャは、エンドツーエンドのLLM推論ではなく、検証を外部化するパイプラインです。ツール選択が優れており（ツールF1 ~0.9）、実行前に結果を別の検証ステップに渡すエージェントの方が、生のツールの出力を単一パスで推論しようとするエージェントよりも信頼できます。

次に読むべき資料

FinMCP-Bench (arXiv:2603.24943): ツールインターフェースの標準としてMCPを使用している姉妹論文で、次に読むべきリストに入っています。FinTraceと直接比較可能ですが、異なるプロトコルレイヤーで構築されています。
"Benchmarking LLM Tool-Use in the Wild" (arXiv:2604.06185): 同時期に発表された論文で、金融以外のツール呼び出しを評価しています。情報活用のギャップがドメイン固有のものか、あるいは一般的なものかを明確にするのに役立ちます。
"Data-Driven Function Calling Improvements in Large Language Model for Online Financial QA" (arXiv:2604.05387): トレーニングデータの観点から、同じツール呼び出しの失敗モードを対象としており、FinTrace-Training's DPOに欠けているものを説明している可能性があります。

FinToolBench：実世界の金融ツール活用におけるLLMエージェントの評価

Sun, 05 Jul 2026 00:00:00 GMT

ほとんどの金融AIベンチマークは、モデルがドキュメントを読み取れるかどうかをテストします。一方、FinToolBenchはモデルが何かを実行できるか、つまりライブAPIを呼び出し、現在の市場データを取得し、正しい回答を返せるかをテストします。これこそが、実際の金融業務を自動化しようとするシステムにとって重要なギャップであり、私が誰かが厳密に埋めてくれるのを待ち望んでいたギャップです。

論文の概要

Jiaxuan Lu氏らは、金融ツール学習エージェントを評価するための、世界初の実用的で実行可能なベンチマークと主張するFinToolBench（arXiv:2603.08262、2026年3月）を発表しました。その位置づけは明快です。既存の金融AI評価はドキュメントに対する静的なQAに焦点を当てており、一方でToolLLMのような一般的なツール使用ベンチマークは、金融をドメイン固有のコンプライアンス制約のない単なるAPIカテゴリの一つとして扱っています。FinToolBenchは、これら2つの失敗モードの間の空白を埋めようとしています。

このベンチマークは、760の実行可能な金融ツール（RapidAPIからの261のライブエンドポイントとAkShareからの499のインターフェース）を、厳選された295の評価クエリ（単一ツール166件、複数ツール129件）と組み合わせています。ツールは株式、債券、ファンド、外国為替、デリバティブ、マクロ、仮想通貨の各ドメインに及びます。重要なのは、これらがモック（スタブ）ではなく、実際に呼び出し可能なAPIであることです。著者らはまた、BGE-M3検索（上位20候補）、金融属性が付与されたツールカード、および5ステップに制限された制約認識型のReActプランナーを使用するベースラインエージェント「FATR（Finance-Aware Tool Routing）」を導入しました。

主要なアイデア

実行そのものはボトルネックではない。出力に対する推論こそが課題である。 GPT-4oは最高のConditional Soft Score（CSS = 0.670）を記録しました。これは、ツールの呼び出しに成功した場合には正しい回答を導き出すことを意味しますが、ツールを呼び出した割合はわずか22.7%（TIR = 0.227）でした。一方、Qwen3-8Bは87.1%の確率でツールを呼び出しましたが、成功時の正解率は40.4%に留まりました。
意図の不一致（Intent Mismatch）が主要なコンプライアンス上の失敗要因である。 ほとんどのモデルでIMR（意図不一致率）が50%を超えており、クエリが情報の検索のみを求めている場合でも、エージェントが日常的にトランザクション（取引）目的の呼び出しを行っていることを意味します。これは規制のある金融の文脈では深刻な問題です。
金融属性の注入は、能力を損なうことなくコンプライアンスを支援する。 FATRベースラインのツールカード（各ツールに最新性、意図タイプ、規制ドメインを注釈付けしたもの）は、呼び出し率を大幅に低下させることなく、古いデータの呼び出し（TMR）やドメイン違反（DMR）を減少させました。
マルチツール・クエリが信頼性のギャップを露呈させる。 129件のマルチツール・クエリでは、呼び出しの連鎖とステップ間での出力の受け渡しが必要になります。FinTraceやTheAgentCompanyの知見と同様に、単一ツールのケースと比較してパフォーマンスが大幅に低下しました。
小規模モデルは呼び出し回数では大規模モデルを上回ることもあるが、推論能力では及ばない。 Qwen3-8BのTIR 0.871に対しGPT-4oが0.227であることは、小規模モデルの方が「引き金が軽い」ことを示していますが、条件付き実行率（CER = TESR/TIR）はQwen3-8Bの0.339に対しGPT-4oが0.618であり、GPT-4oがツールを呼び出すと決めた際の精度がはるかに高いことを示しています。

評価できる点と不十分な点

真にライブで実行可能なAPIを使用するというベンチマークの選択は、主要な貢献であり、本物です。モックAPIは、これまでのツール使用ベンチマークにおける「公然の秘密」でした。ToolLLMの16,000個のAPIは印象的ですが、その評価は呼び出しが機能した「であろう」かどうかをLLMに判定させているに過ぎません。FinToolBenchはそれを回避しています。

コンプライアンス指標（TMR、IMR、DMR）は、概念としては正しいものです。金融エージェントは、昨日の終値を取得することと取引を開始することの違いを理解する必要があります。しかし、これらの分類がどのように強制されるかについての論文の記述は不十分です。意図タイプ（情報検索 vs. トランザクション）の正解ラベルが、法務やコンプライアンスの専門家によって検証されたのか、単にデータセットの著者によって割り当てられたのかが不明確です。これは実務において非常に重要です。

また、対象モデルのラインナップが奇妙に限定的です。Doubao-Seed-1.6、Qwen3-8B、GLM-4.7-Flash、およびGPT-4oのみです。当然比較対象となるべきClaude SonnetやGemini 2.5が含まれていません。結果の表では、GPT-4oが「高精度だが低カバー率」という極端な例として示されていますが、Claudeのツール使用行動がGPT-4oの保守的なパターンに近いのか、それともQwen3-8Bのような積極的なものなのかを知りたいところです。

295件のクエリという評価セットは、現代のベンチマーク基準からすると小規模です。760のツールに対して295のクエリでは、ほとんどのツールが一度もテストされないことになります。論文ではドメインごとの網羅統計が報告されていないため、ヘッドラインの数値が株式やマクロといった一部の充実したドメインによって牽引されている可能性があります。

金融AIにとっての重要性

Beancountの書き戻し（write-back）エージェント（bean-addを呼び出したり、元帳ファイルをパッチしたり、beanqueryを実行したりするエージェント）は、FinToolBenchが明らかにしたのと全く同じ失敗モードに直面します。意図不一致の問題は直結します。ユーザーが読み取り専用の質問をした際に書き込み呼び出しを行うBeancountエージェントは、IMR違反と同じ失敗シグネチャを持ちます。最新性の次元は、ユーザーが現在の残高を期待しているときに、古いキャッシュされた元帳の状態を呼び出してしまう問題に対応します。

精度とカバー率の緊張関係（GPT-4o vs Qwen3-8B）も直接的な関連があります。Beancountの書き戻しにおいては、間違ったツールを頻繁に実行する高頻度呼び出しモデルよりも、GPT-4oのような保守的な呼び出し行動（低いTIRだが高いCERとCSS）の方が好ましいでしょう。誤った書き込みは、何もしないこと（ノー・オペレーション）よりもはるかにコストが高いからです。

モデルが推論することに頼るのではなく、コンプライアンス属性でツールを注釈付けするというFATRのアプローチは、採用する価値のある設計パターンです。Beancount CLIツールを、呼び出しが読み取り専用か変更を伴うか、また現在の元帳に触れるのかアーカイブされた元帳に触れるのかといった明示的なメタデータでラップすることは、同じアイデアをより小さなスコープに適用したものです。

次に読むべきもの

FinTrace (arXiv:2604.10015) — 34の金融タスクカテゴリにわたる軌跡レベルの評価を9つの指標で実施。FinToolBenchの単一呼び出し評価をマルチステップのシーケンスに直接拡張し、中間推論を改善するためにDPOを用いてQwen-3.5-9Bをファインチューニングしています。
FinMCP-Bench (arXiv:2603.24943) — 65のMCP（Model Context Protocol）ベースの金融ツールを用いた613のサンプルで、単一ツール、マルチツール、およびマルチターンの呼び出しをテスト。MCPの枠組みは、Beancountツールのインターフェースに直接関連します。
ToolLLM (arXiv:2307.16789, ICLR 2024) — FinToolBenchが明示的に対抗軸として位置づけているToolBenchの論文。モックAPIベースの基準が何を測定でき、何を測定できないかを理解することで、FinToolBenchの「実行可能性」が実際にどれほどの価値をもたらすかが明確になります。

OmniEval: 金融分野向け全方位型RAG評価ベンチマーク

Sat, 04 Jul 2026 00:00:00 GMT

金融におけるほとんどのRAGベンチマークは、システムが検索して回答できるかどうかを問うだけです。RUC（中国人民大学）のShuting WangらによるOmniEval（EMNLP 2025, arXiv:2412.13018）は、より困難な問いを投げかけています。それは、タスクタイプと金融トピックの完全なマトリックス全体でパフォーマンスが維持されるか、という点です。私が今これを読んでいるのは、RAGパイプラインの上に信頼性の高いBeancount帳簿エージェントを構築しようとする前に、金融におけるRAGの失敗の形をマッピングする最も構造化された試みだからです。

論文について

OmniEvalは、5つのタスククラス（抽出型QA、マルチホップ推論、対照QA、ロングフォームQA、対話型QA）と16の金融トピック（株式市場、投資銀行、ファンド、損害保険など）を交差させた2次元の評価グリッドを構築しています。その結果、11,400件の自動生成テスト事例、1,700件の人手によるアノテーション事例、および6つの中国の金融データソース（193,000件のドキュメントを含むBSCF-DB、55,000件のFinGLM、48,000件のBAAI-Fin、公式サイトのウェブクロール、PDF、Wikipediaの金融コンテンツ）から収集された362,000件のドキュメント検索コーパスからなる構造化されたベンチマークが作成されました。このベンチマークには、人手でラベル付けされた910件のインスタンスでトレーニングされ、正確性、ハルシネーション、完全性、活用度、数値の正確性にわたって生成品質をスコアリングする、ファインチューニングされたLLM評価器（Qwen2.5-7B-Instruct）も含まれています。この論文はEMNLP 2025で発表されました。

主なアイデア

自動生成されたテストケースは87.47%の人手による承認率をパスしました。これは、生成されたインスタンスの約8個に1個が破棄されたことを意味し、ベンチマークとしては無視できないノイズ率です。
最高の検索器（GTE-Qwen2-1.5B）は、自動生成セットでMAP 0.4370、MRR 0.4491を達成しました。これは、テストされた最強の検索器であっても、上位にランクされたパッセージが正しい確率は半分以下であることを意味します。
すべての検索器とLLMの組み合わせにおける生成の正確性（ACC）は0.3238から0.4476の範囲でした。つまり、最良の構成でも質問の半分以上に正解できていません。
数値の正確性（NAC）が最も顕著な発見です：0.0659から0.3595。最良のシステムでも金融数値を正しく答えられるのは約36%であり、最悪のシステムはほぼゼロに近い値です。
ファインチューニングされた評価器は、人手によるアノテーションと74.4%の一致率（κ = 0.6486）に達しました。これは、プロンプトのみのベースライン（55〜71%）を大幅に上回っていますが、依然として4回に1回の評価は人間の判断と一致していません。
マルチホップ推論と対話型QAは、一貫して最も困難なタスククラスでした。

有効な点とそうでない点

マトリックス評価のデザインは非常に有用です。これまでの金融ベンチマーク（FinanceBench、FinQA、DocFinQA）は、評価を単一の軸（通常は回答の正確性）として扱っており、RAGが失敗する構造的な変動を見逃していました。システムが抽出型QAでは高得点だがマルチホップ推論では低得点であると知ることは、改善に繋がりますが、総合スコアの平均を知るだけでは不十分です。OmniEvalのグリッドはその変動を可視化しており、トピック間でパフォーマンスが不均一であるという発見は、実務家が導入前に確認すべきまさにその種の結果です。

とはいえ、率直に指摘したい限界もあります。コーパスは圧倒的に中国語です。6つのデータソースのうち5つが中国の金融データ（BSCF、FinGLM、BAAI-Fin）であり、6つ目は中国語のWikipediaです。論文では言語別の結果は報告されておらず、集計された数値のみが報告されています。そのため、論文内のすべてのスコアは、一般的な金融RAGに関する主張ではなく、中国語に特化した検索器やLLM（GTE-Qwen2-1.5B、Qwen2.5-72B、Yi15-34B）を用いた中国語テキストに対する金融RAGに関する主張として疑ってかかる必要があります。英語圏の金融ユーザーは、これらの数値を直接利用することはできません。

LLM評価器は910件のラベル付きインスタンスでトレーニングされています。これは不十分です。κ = 0.6486で74.4%の人間との一致率は、出発点としては擁護できますが、評価フレームワーク自体がかなりのノイズを導入していることを意味します。数パーセントの差しかないシステムを比較するためにこのベンチマークを使用すると、評価器の分散がシグナルをかき消してしまうでしょう。

GPT-4がテスト質問を生成し、人間が87.47%の採用率でフィルタリングするという自動生成パイプラインも、論文が触れていない汚染（contamination）の問題を提起しています。GPT-4が生成した質問は、古いモデルや小規模なモデルを体系的に不利にするような方法で、GPT-4クラスのモデルの強みに有利に働く可能性があります。

なぜこれが金融AIにとって重要なのか

私が何度も立ち戻ってしまうのは、数値の正確性のスコア（0.0659〜0.3595）です。テストされた最高のRAGシステムでも、ベンチマーク評価で金融数値を正しく答えられるのが36%に過ぎないのであれば、ナイーブなRAGパイプラインの上に構築されたBeancount書き戻しエージェントは、帳簿データを破損させることになるでしょう。Beancountのフォーマットは容赦がありません。金額、日付、または勘定科目の名前が間違っていれば、パースエラーが発生するか、あるいは会計年度を超えて伝播する目に見えない会計エラーが発生します。このベンチマークは、RAGの検索とLLMの生成が、検証レイヤーなしで直接帳簿に書き込むほどにはまだ信頼できないという具体的な証拠を提示しています。

タスククラスの構造も、Beancountのユースケースにきれいに対応しています。抽出型QAは、単純な残高確認に対応します。マルチホップ推論は、「第1四半期から第3四半期までの税引き後の純利益はいくらか？」といった質問に対応します。対話型QAは、セッションを通じてユーザーが照合リクエストを繰り返し修正する場合に対応します。マルチホップおよび対話型タスクが最も困難であるというOmniEvalの発見は、Beancountエージェントの設計にとってまさに悪いニュースです。簡単なケースはほぼ問題ありませんが、現実的なケースでシステムが崩壊するのです。

次に読むべきもの

ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation (arXiv:2311.09476, NAACL 2025) — OmniEvalの評価器ファインチューニング手法に最も近い汎用ドメインの類似例です。ARESの手法とOmniEvalの手法を比較することで、LLM評価器の設計選択が原理に基づいたものか、あるいは場当たり的なものかが明確になるでしょう。
RAGEval: Scenario-Specific RAG Evaluation Dataset Generation Framework (ACL 2025, aclanthology.org/2025.acl-long.418) — RAG評価のための自動シナリオ生成フレームワークです。OmniEvalが使用している自動生成手法を拡張したものであり、汚染の懸念に対処している可能性があります。
FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain (arXiv:2505.17471) — RAG評価をマルチモーダルな金融ドキュメント（表、チャート）に拡張したものです。Beancountのユーザーがプレーンテキストの帳簿と並んで領収書の画像やPDFの明細書を持つことが増えているため、関連性が高いです。

LLM異常検知サーベイ (NAACL 2025)：強力な分類体系、欠如した表形式データへの対応

Fri, 03 Jul 2026 00:00:00 GMT

このスレッドの過去3つのエントリーでは、AnoLLM、CausalTAD、AD-LLMについて取り上げました。これらはいずれも表形式データの異常検知を具体的にターゲットとしたものです。Ruiyao Xu氏とKaize Ding氏による、NAACL 2025 Findingsに採択されたこのサーベイ論文は、それらのスレッドを統合し、統一されたランドスケープ・マップとして提示することを目的としています。私は設計空間を明確にするような分類体系を期待していましたが、得られたものは、汎用性を装いつつも、その大半が画像およびビデオの異常検知に関する調査でした。

論文の内容

Xu氏とDing氏のサーベイ（arXiv:2409.01980）は、LLMベースの異常検知および分布外（OOD）検知を、2つのハイレベルなクラスに整理することを提案しています。一つはモデルが直接異常を特定する「検知用LLM（LLMs for Detection）」、もう一つはモデルが訓練データを拡張したり、後続の検知器に供給する自然言語による説明を生成したりする「生成用LLM（LLMs for Generation）」です。各クラスはさらに細分化されます。検知は、プロンプトベースの手法（自然言語のプロンプトで照会される凍結または調整済みLLM）と、コントラスティブ学習ベースの手法（画像パッチとテキスト記述を比較して異常性をスコアリングするCLIPファミリーのモデル）に分かれます。生成は、拡張中心の手法（擬似OODラベルや合成マイノリティサンプルの生成）と、説明中心の手法（フラグが立てられたイベントに対して自然言語による根拠を生成する）に分かれます。

付属のGitHubリーディングリストには、約39本の論文が掲載されています。検知に関するものが24本、拡張に関するものが10本、説明に関するものが5本です。

主なアイデア

コントラスティブ学習ベースの手法が画像異常検知を支配している。 WinCLIPは、データセット固有の調整なしで、MVTec-ADのゼロショット異常分類およびセグメンテーションにおいて、それぞれ91.8%と85.1%のAUROCを達成しました。これは、そのデータセットで学習された教師あり手法に匹敵する性能です。
凍結されたLLMはテキスト以外のデータに対してモダリティ・ギャップに直面する。 サーベイでは、「凍結されたLLMを様々なデータタイプの異常またはOOD検知結果のために直接プロンプティングすると、テキストと他のデータモダリティとの間の固有のモダリティ・ギャップにより、最適ではないパフォーマンスになることが多い」と明記されています。
LoRAとアダプターチューニングがそのギャップの多くを解消する。 AnomalyGPTやAnomalyCLIPのような手法は、パラメータ効率の良い技術でファインチューニングを行っており、凍結されたモデルを大幅に上回る性能を発揮します。
拡張としての生成は十分に活用されていない。 BLIP-2で生成されたキャプションレベルの擬似OODラベルは、OOD検知において単語レベルや記述レベルの代替案を上回っており、視覚的なタスクであっても、より豊かなテキストによる教師あり学習が重要であることを示唆しています。
説明中心の生成は最も新しいサブカテゴリーである。 Holmes-VADやVAD-LLaMAのようなシステムは、単なるバイナリフラグを超えて、主に監視ビデオにおける異常なイベントに対して自然言語による根拠を生成します。
表形式データがほぼ欠如している。 サーベイでは、Liら（2024）による「Tabular」という、表の行をテキストプロンプトに変換してLoRAでファインチューニングする手法が1つ引用されていますが、比較数値は提供されていません。

有効な点、そうでない点

2クラスの分類体系は非常に洗練されており、私自身の思考を整理するためにも活用するつもりです。「検知 vs 生成」の区別は、実際のアーキテクチャ上の分岐点を捉えています。LLMに直接分類させるか、あるいはLLMを使用して従来の検知器のためにより良い学習信号を構築するかのどちらかです。

承服しがたいのは、この論文を広く「異常検知のサーベイ」として位置づけている点です。対象範囲は、産業用欠陥画像（MVTec-AD、VisA）や監視ビデオ（UCF-Crime、XD-Violence）に圧倒的に偏っています。リストアップされた約39本の論文のうち、表形式データや財務データを扱っているものはほとんどありません。時系列データについては数件の引用がありますが、表形式データについては1文触れられているだけです。これはBean Labsのためのランドスケープ・マップではなく、欠陥検知にCLIPを使用したいコンピュータビジョン研究者のためのマップです。

著者らは「紙幅の都合上、詳細な指標の要約は行わない」と述べていますが、これは比較表が存在しないことを丁寧に言い換えたに過ぎません。サーベイ論文において、定量的な統合が欠如していることは重大な欠陥です。読者は引用された各論文を個別に調べない限り、自分のユースケースにどのパラダイムが適しているかをこの論文から判断することはできません。

ハルシネーションの課題は未解決の問題として挙げられていますが、その扱いは浅いものです。リスクを挙げるだけで、どの検知パラダイムがより影響を受けやすいのか、あるいは説明中心の生成が人間によるレビューを通じてハルシネーションをどのように検知しやすくするかといった分析はありません。

なぜこれが財務AIにとって重要なのか

画像中心の内容ではありますが、2つのサブカテゴリーが関連しています。第一に、説明中心の生成というサブカテゴリーは、まさにBeancount監査エージェントが必要としているものです。仕訳が異常であるというフラグを立てるだけでなく、なぜ異常なのかを説明する自然言語の文章が必要です。財務監査人は、バイナリの出力だけでは行動できません。第二に、表形式の異常検知に関するこのサーベイのほぼ完全な沈黙自体が、示唆に富んでいます。これは、私が追ってきたAnoLLM、CausalTAD、AD-LLMという流れが、開拓され尽くした分野ではなくフロンティア領域であることを裏付けています。また、Beancount元帳用のLLMベースの監査ツールを設計するには、まだ表形式の設定に移植されていないビジョン異常検知の知見を統合する必要があることを示しています。

プロンプティング vs チューニングのトレードオフは、最も実用的な知見です。ゼロショットプロンプティングは第一近似としては機能しますが、モダリティ・ギャップに悩まされます。代表的なラベル付きサンプルを用いたLoRAベースのファインチューニングが、そのギャップを埋めます。過去の元帳から異常のラベル付きサンプルが得られるBeancountの導入においては、純粋なプロンプティングよりもファインチューニングの道の方が信頼性が高いと考えられます。

次に読むべきもの

"Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs" (arXiv:2406.03614) — 実際の総勘定元帳の仕訳にLLMのsentence-transformer埋め込みを使用しており、このサーベイのフレームワークからBeancountの表形式ユースケースへの直接的な橋渡しとなります。
"Enhancing Anomaly Detection in Financial Markets with an LLM-based Multi-Agent Framework" (arXiv:2403.19735) — 市場データの異常検知のためのマルチエージェント・パイプライン。このマルチエージェント調整パターンは、元帳監査にも応用できる可能性があります。
AnomalyGPT (arXiv:2308.15366) — ピクセルレベルの局所化が可能な、産業用異常検知のためにファインチューニングされたLVLM。これを読むことで、サーベイでは記述されているものの説明されていない「検知のためのLLMチューニング」がアーキテクチャ的に何を意味するのかが明確になります。

Found in the Middle: 位置的アテンションバイアスの校正によるロングコンテキストRAGの改善

Thu, 02 Jul 2026 00:00:00 GMT

Liuらによる当初の発見に関するログを書いて以来、私は「ロスト・イン・ザ・ミドル（lost-in-the-middle）」問題について考え続けてきました。LLMに長いコンテキストを渡すと、中央に埋もれた証拠を確実に無視するという問題です。「Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization」（Hsieh et al., ACL Findings 2024, arXiv:2406.16008）は、私がこれまで見てきた中で最も直接的で実用的な解決策を提示しています。それは、訓練不要で推論時に適用可能な校正手法であり、モデルのアテンションの重みから位置的バイアスを減算することで、RAGの精度を最大15%回復させます。

論文の概要

Hsiehらは、診断的な観察から議論を始めています。LLMは、たとえロングコンテキストで訓練されていても、持続的な「U字型」のアテンションパターンを示します。入力の最初と最後にあるトークンは、関連性に関係なく不当に高いアテンションを受け取り、一方で中央のトークンは系統的に過小評価されます。著者らはこれを、単なる別個の現象としてではなく、ロスト・イン・ザ・ミドルの精度低下と経験的に結びつけています。

彼らの解決策は、コンセプトにおいて非常にエレガントです。彼らはアテンションを2つの加算的な要素、つまり「関連性」（私たちが望むもの）と「位置的バイアス」（私たちが望まないもの）に分解しました。バイアス項を分離するために、彼らは各位置に情報のない「ダミー」ドキュメント（フィラーコンテンツ）を配置した同じコンテキストをモデルに渡し、その結果得られるアテンション分布を記録します。そのダミードキュメントのアテンションは、純粋な位置的事前分布（prior）を近似します。これを実際のアテンションスコアから差し引くことで、真の関連性をより良く反映した残差が得られます：

校正済みアテンション = Attn(ドキュメント, k) − Attn(ダミー, k)

再スケーリングされたスコアは、最終的な回答生成ステップの前に、検索されたドキュメントの再ランク付けや重み付けに使用されます。重要なのは、訓練が一切不要である点です。校正は推論時に、最後の16個のデコーダーレイヤーとすべての全アテンションヘッドに適用されます。コストはO(K)の追加フォワードパス（Kは検索されたドキュメント数）であり、無視はできませんが予測可能です。

主要なアイデア

U字型のアテンションバイアスはモデルアーキテクチャに固有のものであり、ロングコンテキストを目的として明示的に訓練されたモデルであっても持続する。
同じ検索コンテキストにダミー（空またはノイズ）ドキュメントを流すことで、位置的事前分布を分離できる。これを差し引くことで、ファインチューニングなしでバイアスを除去できる。
NaturalQuestion（K=20、正解ドキュメントを中央に配置）におけるRecall@3は、校正によって20.52%から68.32%に急上昇した。K=10の場合、36.38%から74.27%に上昇した。
正解ドキュメントがコンテキスト中央にある場合、エンドツーエンドのQA精度が6〜15ポイント向上した。この改善は24の実験設定のうち22で確認された。
この手法は、バニラアテンション、クエリ生成ランキング、関連性生成プロンプティング、アテンションソーティング（Peysakhovich & Lerer 2023）、プロンプト並べ替え、LongLLMLingua-rkという6つの比較ベースラインを上回った。
評価は、NaturalQuestion（Wikipediaに基づく2,655件の実際のクエリ）とSynthWiki（GPT-4で生成された990件の合成エントリ）で行われた。

評価できる点と懸念点

核となる結果は驚くべきものであり、信頼に足ると考えられます。コンテキスト中央に正解がある場合のRecall@3における20.52%から68.32%への飛躍は、精査によって消えてしまうような数字ではありません。これはアテンションがどのように分布しているかについて、実在する何かを測定しています。訓練不要の設計は実用面で大きな利点です。モデルの重みをいじることなく、既存のRAGパイプラインの上にこれを組み込むことができます。

とはいえ、いくつか保留したい点もあります。第一に、「ダミードキュメント」アプローチは、位置的バイアスがおおよそ位置ごとに分離可能で加算的である（線形分解）と仮定していますが、これは著者自身も単純化しすぎている可能性があると指摘しています。実際のアテンションバイアスは、コンテンツと非線形に相互作用している可能性があります。第二に、O(K)の追加フォワードパスは「許容可能」とされていますが、遅延やコストに関するベンチマークは示されていません。K=20の検索を行う本番システムでは、1クエリにつき1回ではなく21回のフォワードパスを実行することになります。数百件の取引をトリアージするBeancountエージェントにとって、この倍率は重要です。

第三に（これが最も興味深い制限ですが）、著者らは位置的バイアスが特定のタスクには実際に有用である可能性を指摘しています。例えば「リーセンシーバイアス（新しさへの偏向）」は、モデルが古いエントリよりも最近の帳簿エントリを正しく重視するのに役立っているかもしれません。バイアスを無差別に除去すると、位置が有効な信号となるタスクに悪影響を与える可能性があります。これについては認められてはいるものの、研究はされていません。

最後に、実験にはNaturalQuestionと合成データセットが使用されています。金融固有のドキュメント（高密度の表、複数年にわたる申告書、繰り返しの構造を持つ帳簿エントリ）は、オープンドメインのWikipediaの記事とは大きく異なります。金融RAGで有効であると断定する前に、それらのデータ分布で校正を検証する必要があります。

なぜこれが金融AIにとって重要なのか

直接的な関係は明らかです。DocFinQA以来のすべてのログは、同じ問題を巡っています。Beancountエージェントが「3月分を銀行明細と照合して（reconcile）」といった質問に答えるために20件の関連する元帳エントリ（ledger entries）を取得したとき、検索ウィンドウの中央にあるエントリは、コンテキストの最初や最後のエントリに比べて系統的にアテンションが不足します。これは検索の失敗ではなく、生成側の失敗であり、検索ランキングをいくら改善しても解決しません。

「Found in the Middle」の校正は、基礎となるモデルの再訓練を必要とせず、あらゆる帳簿QAパイプラインの生成ステップに直接適用できる、説得力のある緩和策です。O(K)のコストに関する懸念は現実的ですが、管理可能です。中規模のモデルで20ドキュメントの検索ウィンドウであれば、実用的な範囲内です。導入前に確認したいのは、特にBeancount構造のデータにおける検証です。位置補正は一律に役立つのか、それとも、古い取引よりも最近の取引を信頼させるリーセンシー信号を意図せず抑制してしまうのか、という点です。

アテンションメカニズムがコンテンツの関連性とは無関係に位置的事前分布をエンコードしており、それらの事前分布は再訓練なしで校正可能であるという広範な原理は、心に留めておく価値があります。これは、トークン頻度バイアス、入力長の正規化、生成時のおしゃべり（verbosity）バイアスなど、他のバイアスに対する同様の校正への道を開くものです。

次に読むべきもの

「Mitigate Position Bias in LLMs via Scaling a Single Hidden States Channel」（arXiv:2406.02536, ACL Findings 2025） — アテンションスコアを差し引くのではなく、単一の隠れ状態の次元をスケーリングすることを提案。Found in the Middleのアプローチと直接比較する価値があります。
「Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey」（arXiv:2409.01980, NAACL 2025） — 読書リストの次にあるもの。AnoLLM、CausalTAD、AD-LLMの流れを統合された分類法にまとめています。
Liu et al., 「Lost in the Middle: How Language Models Use Long Contexts」（arXiv:2307.03172, TACL 2023） — Found in the Middleが対応している元の診断。不可欠な背景知識です。

LLMエージェントにおける不確実性を考慮したディフェラル：小規模モデルから大規模モデルへいつエスカレーションすべきか

Wed, 01 Jul 2026 00:00:00 GMT

自律型エージェントに対し、安価であることと信頼できることの両立を求める圧力は、相反する方向へと働きます。最先端のフロンティアモデルは信頼性が高いものの高価であり、小規模モデルは安価ですがエラーが発生しやすいのが現状です。PiatrashynらによるReDActの論文 (arXiv:2604.07036) は、その中間的な道、つまり「通常は小規模モデルを実行し、そのモデルが不確実な場合にのみ大規模モデルに委譲（ディフェラル）する」という手法を提案しています。私がこの論文を読んでいるのは、本番環境のBeancount書き戻しエージェント（write-back agent）が直面する緊張感も同様だからです。日常的な分類は安価に処理し、確証が持てないケースは台帳を汚す前にエスカレーションさせたいというニーズがあるのです。

論文の内容

ReDAct (Reason-Defer-Act) は、ReActプロンプティングのパラダイムに基づいて構築された、2モデル構成のエージェントアーキテクチャです。Qwen3-80B、Llama3.3-70B、あるいはLlama4-Maverickといった安価な小規模モデルが、デフォルトですべてのステップを処理します。各ステップで、モデルはまず推論トレース（reasoning trace）を生成し、次にアクションを生成します。システムはアクション生成ステップのみのトークンレベルの不確実性を測定し、キャリブレーション（較正）済みの閾値と比較します。不確実性が閾値を超えた場合、そのステップは高価な大規模モデル（GPT-5.2、Qwen3-235B、あるいはQwen3-480B）によって再実行されます。そうでなければ、小規模モデルのアクションが実行されます。

不確実性の測定には情報理論的な手法が用いられ、トークンレベルの対数確率（log-probabilities）のみを必要とします。具体的には、シーケンス確率（負の対数確率の合計）、パープレキシティ（長さで正規化されたもの）、および平均トークンエントロピー（全トークン位置の平均エントロピー）です。閾値は、エピソードあたりの大規模モデルの呼び出し回数が目標値Kになるような値を選択することで、小規模モデルのロールアウト用ホールドアウトセットからキャリブレーションされます。

主要なアイデア

推論ステップではなく、アクションステップで不確実性を測定する。 2,411個のALFWorldステップを用いた補助的な実験では、推論レベルの不確実性は正しいステップと誤ったステップを判別する能力が低いことが分かりました。一方で、アクションレベルのパープレキシティは、正しさの予測指標として測定可能なほど高いROC-AUCとPRRを示しました。
Qwen3-80B + GPT-5.2によるPPLディフェラルは、ALFWorldで80.8% ± 1.1%を達成。 これはGPT-5.2単体（78.3% ± 1.9%）を上回りつつ、コストは45.21ドルに対して16.25ドルと、約64%の削減を実現しています。
実際には約15%のステップが委譲される。 キャリブレーションの目標を約10%に設定していてもこの数字になるのは、失敗した（より短い）軌跡が委譲予算に対して不釣り合いに寄与するためです。
同じ割合でのランダムな委譲のスコアは77.0%。 小規模モデル単体（68.3%）よりは良好ですが、不確実性（UQ）に基づいた委譲よりは劣ります。単に大規模モデルを多く呼び出すだけでなく、不確実性のシグナルが真に重要であることを示しています。
MiniGridでは伸び代が少ない。 PPLディフェラルを用いたQwen3-80B + GPT-5.2は95.0%に達しましたが、GPT-5.2単体は99.0%でした。タスクの語彙が少ない場合、小規模モデルが構造的に不十分であれば、委譲アプローチには限界が生じます。
委譲の分布はタスクに依存する。 ALFWorldでは後半のステップ（プロンプト履歴が長くなるほど）で委譲が増える一方、MiniGridではエージェントの初期位置に関連した二峰性のパターンが見られました。これは、固定された閾値のキャリブレーションは、異なるタスク間よりも同一タスク内での汎用性が高いことを意味します。

妥当な点とそうでない点

核となる実証結果は信頼に足るものです。アクション文字列に対するパープレキシティは、特定のステップが失敗しそうかどうかの合理的な代替指標となります。ReActにおける推論とアクションの分解は、不確実性シグナルを付与するための明確なポイントを提供しており、補助的な正誤予測実験はこの設計の選択に真のメカニズム的根拠を与えています。

納得しがたい点としては、ALFWorldでの「大規模モデル単体を超える」という結果です。80.8% ± 1.1% と 78.3% ± 1.9% は、標準偏差の範囲内で重なっています。著者はこれを、小規模モデルが日常的なステップを処理し、大規模モデルが時折見せるリスクテイクを避けるといった「補完的な強み」によるものとしていますが、この主張を裏付けるステップごとのアブレーション（除去試験）は行われていません。単なるノイズである可能性もあります。

ベンチマークの選択も限定的です。ALFWorldとMiniGridはテキストベースの家庭内シミュレーションやグリッドワールドのナビゲーションであり、ツール呼び出しやコード実行、複数文書の検索などを伴わない狭い環境です。不確実性でキャリブレーションされた委譲が、より豊かな設定（Beancountに関連するような設定）で維持されるかどうかは不明です。また、大規模モデルとしてGPT-5.2を選択しているため、コストの数字を再現するのは困難です。

キャリブレーション手順には、対処されていない循環参照があります。閾値は、キャリブレーションに使用されたのと同じ分布上で選択されており、ホールドアウトされた検証セットがありません。著者はキャリブレーション（小規模モデルのロールアウト）と評価（ハイブリッドなロールアウト）の間の分布のずれを認めていますが、閾値の堅牢性については今後の課題としています。

なぜこれが金融AIにとって重要なのか

Beancountの書き戻しエージェントは、すべての取引において、これと全く同じ「委譲」の問いに直面します。日常的な食料品の購入には分類が必要です。一方で、一部が一致した摘要（memo）を持つ、珍しい多段階の多通貨スワップには人間が必要です。現在の慣行は、完全な自動化（リスクが高い）か、完全な人間によるレビュー（コストが高い）のどちらかです。ReDActの枠組みは、扱いやすい中間領域を示唆しています。安価なモデルを実行し、候補となるジャーナルエントリのパープレキシティがキャリブレーションされた閾値を超えた場合にエスカレーションするのです。

金融の文脈では、論文で扱われていない2つの考慮事項が加わります。第一に、ここでの「委譲」は、より大きなLLMを呼び出すことではなく、「一時停止してユーザーに尋ねる」ことを意味すべき場合が多いということです。台帳の正確性の基準は、ベンチマークのスコアではなく、ユーザーの意図だからです。第二に、確定されたBeancountエントリの不可逆性は、ALFWorldでオブジェクトを置き間違えることよりも重いものです。キャリブレーションの目標Kは、委譲する前に小規模モデルの適合率（precision）を低く見積もるよう、保守的に調整されるべきでしょう。

これらの注意点はありますが、64%のコスト削減というシグナルは真剣に受け止める価値があります。もしBeancountエージェントが1ヶ月分の取引を処理し、分類の判断のうち15%だけが高価なモデルを必要とするのであれば、有能な書き戻しエージェントを運用する経済性は格段に向上します。

次に読むべきもの

KnowNo (Ren et al., 2023, CoRL): "Robots that ask for help: uncertainty alignment for large language model planners" — 共形予測（conformal prediction）を使用して、いつ助けを求めるべきかの「カバレッジ」保証をキャリブレーションします。ReDActはこれと比較していませんが、本番環境の手法を選択する前に、共形保証と閾値キャリブレーションのトレードオフを理解することは重要です。[arXiv:2307.01928]
A Survey of Confidence Estimation and Calibration in Large Language Models (Guo et al. updated, NAACL 2024) — 言語化された自信、サンプリングベース、および事後キャリブレーション手法の体系的なタクソノミーです。パープレキシティが適切な不確実性の代替指標なのか、あるいはキャリブレーションされたロジットスケーリングの方が優れているのかを判断するための理論的背景となります。[arXiv:2311.08298]
UALA: Uncertainty-Aware Language Agent (Han, Buntine, Shareghi) — 「ツールの呼び出し」の判断（ツールを呼び出すか、モデルの知識に頼るか）に構造的に類似した不確実性の閾値を適用し、ツール呼び出しを50%以上削減しています。エージェントの不確実性におけるツール利用の軸において、ReDActを直接補完するものです。[https://uala-agent.github.io/]

OpenHands：AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味すること

Tue, 30 Jun 2026 00:00:00 GMT

TheAgentCompany、InvestorBench、そして増え続ける評価論文の下層にある足場としてOpenHandsに遭遇し続けていますが、まだ一次論文を読んでいませんでした。これはこの分野の他の部分が静かに構築されているインフラであり、その上に構築された個々のベンチマーク結果よりも、それが実際に何を提供し、どこが不足しているかを理解することの方が重要です。

論文について

OpenHands（Wang et al., 2024; ICLR 2025）は、汎用的なソフトウェア開発者として機能するLLMエージェントを構築および評価するためのオープンソースプラットフォームです。Xingyao Wang氏とGraham Neubig氏を中心とする24名のチームによるこの論文の核心的な主張は、既存のエージェントフレームワークの多くは、研究コミュニティの共有基盤として機能するには、研究に特化しすぎている（ハードコードされたタスクループ）か、実用に特化しすぎている（クローズドソースまたは単一目的）かのどちらかであるということです。OpenHandsは、標準化されたランタイム、クリーンなエージェント抽象化、および15の統合された評価ベンチマークを1つのMITライセンスのリポジトリで提供することで、この問題を解決しようとしています。

ランタイムは、bashシェル、Jupyter IPythonサーバー、およびPlaywright制御のChromiumブラウザを含む、Dockerでサンドボックス化された環境です。エージェントは主に3つのアクションタイプを介して対話します。Python用のIPythonRunCellAction、シェルコマンド用のCmdRunAction、およびWebナビゲーション用のBrowserInteractiveActionです。マルチエージェント調整プリミティブであるAgentDelegateActionを使用すると、メインエージェントが特殊なサブエージェントを生成できます。デフォルトのバックボーンはCodeActであり、これは元々、コードがLLMエージェントにとって理想的な統一アクション空間であると主張する独立した論文として発表されました。プラットフォームには、一般的なCodeActAgentや特殊なBrowsingAgentを含む複数のエージェント実装が同梱されています。

主なアイデア

ユニバーサルなアクション空間としてのコード: CodeActは、すべてのエージェントアクション（ファイル編集、API呼び出し、データ変換）をPythonまたはbashに統合し、LLMが最も重点的にトレーニングされた媒体と同じ媒体で推論できるようにします。これにより、関数呼び出しエージェントを悩ませる脆弱なJSONスキーマの脆さを回避できます。
サンドボックス化されたDockerランタイム: すべてのエージェントは隔離されたコンテナ内で実行されるため、ホストマシンを危険にさらすことなく任意のコードを自由に実行できます。これは、実際の認証情報が渡される可能性のある本番環境の財務エージェントにとって必須条件です。
1つのハーネスに15のベンチマーク: SWE-Bench Lite（コード修復）、HumanEvalFix（バグ修正）、WebArena（Webナビゲーション）、GPQA（大学院レベルの推論）、GAIA（一般的なタスク解決）など10種類以上。これらを同じ場所に配置することで、都合の良い結果だけを抽出した評価を防ぎます。
CodeActAgent + claude-3.5-sonnetがSWE-Bench Liteで26%、HumanEvalFixで79.3%を達成。BrowsingAgentはWebArenaで15.5%に達し、タスク固有のトレーニングなしで競争力のあるゼロショット結果を示しました。
GAIAのパフォーマンス: GPTSwarmを使用して32.1%であり、人間のベースラインである92%を大幅に下回っています。これは、他のすべての汎用エージェントベンチマークが示す、人間とエージェントの60〜70ポイントのギャップと一致しています。
コミュニティの規模: ICLR投稿時点で71.4KのGitHubスターと188人以上のコントリビューターを擁しています。TheAgentCompanyはOpenHandsを評価ハーネスとして採用し、事実上のベンチマークインフラとしての地位を確立しました。

維持されるもの、されないもの

サンドボックス化されたランタイム設計は、堅実なエンジニアリングです。エージェントの実行をDockerで隔離することは、後に実際の財務元帳への書き込みアクセス権が与えられる可能性のあるシステムにとって正しいデフォルト設定であり、ベンチマークが互換性のないリポジトリに分散されるのではなく、同じ場所に配置されていることは非常に有用です。

しかし、ベンチマークの範囲は、体系的というよりは野心的です。15のベンチマークは、結果をどのように集計または比較すべきかという明確なフレームワークなしに、大きく異なるタスクタイプと難易度にまたがっています。同じ論文内でSWE-Bench Liteの26%とHumanEvalFixの79.3%を並べて報告することは、同じエージェントが同時に平凡で優秀であるという印象を与えるリスクがあります。タスクは単に比較可能なものではありません。著者は、原則に基づいたマルチベンチマーク集計方法論を提供していません。

コードが正しいユニバーサルアクションフォーマットであるというCodeActの仮定には異論があります。これは開発タスクには適していますが、あらゆるアクションにPython/bashの仲介レイヤーを課すため、レイテンシが増大し、アクションのセマンティクスがコードにきれいにマッピングされない場合（曖昧なユーザー指示、自然言語のみのAPI）に破綻します。この論文では、非コードアクション空間との比較ベンチマークを行っておらず、その優位性がLLMバックボーンによる混同ではなく、本物であることを証明していません。

おそらく最も重要なギャップは、評価とデプロイメントの乖離です。SWE-Benchの26%という数字は、比較的クリーンで明確に指定されたベンチマークから得られたものです。コミュニティの報告やGitHubのイシュースレッドでは、曖昧なタスクや長期にわたる現実世界のタスクにおいて、信頼性が大幅に低いことが一貫して記述されています。これはTheAgentCompanyが文書化したのと同じ失敗モードです。この論文では、現実的なタスク指定のノイズの下で堅牢性を測定または向上させる方法については触れられていません。

なぜこれが財務AIにとって重要なのか

OpenHandsは、コミュニティが持っている共有エージェント基盤に最も近いものです。Bean LabsがBeancountエージェント用の評価インフラを構築する場合、ここにあるランタイムアーキテクチャ（Dockerサンドボックス、Python/bashアクション、プラグイン可能なLLMバックエンド）は、再構築するよりも採用する価値があります。AgentDelegateActionプリミティブは、トップレベルのオーケストレーターが、元帳読み取り用、異常フラグ立て用、人間がレビューする書き戻し提案用といった専門のサブエージェントに委任する財務エージェントパイプラインに自然にマッピングされます。

SWE-BenchとTheAgentCompanyの数値を合わせると、冷静な事実が浮き彫りになります。現在利用可能な最高のエージェントであっても、現実的で曖昧さのないソフトウェアタスクの約26〜30%しか完了できません。財務元帳の自動化はさらに困難です。トランザクションはしばしば曖昧であり、エラーの影響範囲は甚大で、ユーザーの意図は不十分に指定されることが多いからです。正しい推論は、エージェントの準備ができていないということではなく、最初の実用的なデプロイメントは、自律的な多段階の元帳編集ではなく、厳密に範囲を絞った1回限りのワークフロー（カテゴリの提案、照合のフラグ立て）になるべきだということです。

次に読むべきもの

ReDAct: Uncertainty-Aware Deferral for LLM Agents (arXiv:2604.07036) — 安価なモデルと高価なモデルを組み合わせ、不確実性が高い場合にのみ高価なモデルに委ねる手法。OpenHandsスタイルのエージェントが、いつBeancountの書き戻しを人間のレビューにエスカレーションすべきかを判断する方法に直接応えます。
FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks (arXiv:2604.10015) — 34の財務シナリオにわたる800のエキスパートが注釈を付けたタスクシーケンス。OpenHandsに欠けている、財務特有の長期ツール利用のための評価方法論を提供します。
FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol (arXiv:2603.24943) — 65の実用的なMCP財務ツールにわたる613のサンプル。OpenHandsのランタイム上に構築されたBeancountエージェントが、実際のMCPデプロイメントでどのように評価されるかに直接関連します。

Fin-RATE：LLMは期間横断および企業横断の財務分析にいかに失敗するか

Mon, 29 Jun 2026 00:00:00 GMT

財務LLMベンチマークの軌道は拡大を続けており、Fin-RATEは、モデルに対して「本物のアナリストが行うこと」、つまり単一の提出書類内だけでなく、複数の期間にわたり、また同業他社と比較して企業を追跡することを求めたときに何が起こるかを示す、これまでで最も明確な例です。

論文の概要

2026年2月にイェール大学などのYidong Jiang氏、Junrong Chen氏らによって発表されたFin-RATEは、2020年から2025年にわたる43社、36業界の計2,472件のSEC提出書類から構築されたベンチマークを導入しています。このベンチマークは、専門家が厳選した7,500件のQAペアを、プロのアナリストのワークフローを反映した3つのタスクタイプに整理しています：DR-QA（単一の提出書類内での詳細と推論）、EC-QA（共通のトピック下での2社間の企業横断比較）、LT-QA（報告期間を通じた同一企業の経時的トラッキング）。各タスクタイプには2,500の質問が含まれています。

評価対象は、GPT-4.1やGPT-5を含むクローズドソースモデル、DeepSeek-V3やLlama-3.3-70Bなどのオープンソース汎用モデル、そしてFin-R1、Fino1-14B、FinanceConnect-13B、TouchstoneGPT-7Bといった財務特化型モデルを含む計17のLLMです。スコアリングには、3人の独立した判定員（GPT-5、DeepSeek-V3.2、Qwen3-235B）が各回答の正誤と5つの分析次元を評価する、統一された「LLM-as-Judge」フレームワークが使用されています。

主な洞察

タスクの複雑化に伴う性能の崩壊：全17モデルの平均で、単一ドキュメントのDR-QAから経時的なLT-QAでは精度が18.60%低下し、DR-QAから企業横断のEC-QAでは14.35%低下しました。
ウェブ検索機能付きGPT-5がトップ：トップパフォーマーであるものの、3つのタスクタイプすべてにおいて最高精度はわずか43〜44%にとどまり、実務アナリストのワークフローを代替するには程遠い結果となりました。
Fin-R1の劇的な下落：財務特化型の推論モデルであるFin-R1は、DR-QAでは57.48%に達したものの、EC-QAでは3.32%へと崩壊しました。この54ポイントの下落は、汎用モデルの劣化を遥かに上回るものです。
RAG設定下でのボトルネック：ゴールドコンテキスト（正解の文脈を与えた場合）では最大57.48%の性能を発揮するのに対し、RAG設定下では全モデルの性能が27%を大きく下回りました。LLMそのものではなく、検索パイプラインが決定的なボトルネックとなっています。
エラーの類型化：本論文では、ハルシネーションと矛盾、財務特有の数値・意味エラー、クエリ/コンテキストの理解エラー、検索レベルの失敗という4つのカテゴリーにわたる13種類のエラータクソノミーを導入しています。RAG下のEC-QAタスクにおけるエラーの75.44%は「証拠の欠如（Missing Evidence）」が占めています。
特化型モデルのハルシネーション：財務特化型モデルは、財務用語の扱いに長けている一方で、複雑なタスクにおいては汎用モデルよりも系統的に高いハルシネーション率を示す傾向があります。

評価できる点、懸念される点

3つの経路からなる構造は、実に見事に設計されています。これまでの多くの財務ベンチマーク（FinQA、TAT-QA、FinanceBenchなど）は、QAを単一ドキュメントのタスクとして扱ってきました。Fin-RATEは、企業横断の比較と経時的なトラッキングを第一級のタスクとして明示的にモデル化した最初の例の一つであり、その結果、現在のLLMが孤立した開示情報のQAは許容範囲内で処理できるものの、ドキュメント、エンティティ、あるいは期間をまたいで統合する必要が生じた瞬間に崩壊するという根本的なギャップを露呈させました。

Fin-R1の崩壊は、この論文における最も衝撃的な発見であり、もっと注目されるべき点だと考えます。単一ドキュメントの抽出に優れた財務調整済みモデルが、皮肉にも「単一ドキュメント内での回答テンプレート」を学習してしまい、エンティティや期間を関連付ける推論戦略を学習できなかったことを示唆しています。これは、明示的な複数ドキュメント推論の監視なしに狭いドメインのファインチューニングを行うことへの具体的な警告です。モデルはおそらく「提出書類内の数値を見つける」という浅いパターンに過学習しており、「この数値を他社の別の提出書類にある同等の数値と比較する」という汎化パスを持っていないのでしょう。

一方で、注意すべき手法上の懸念もあります。GPT-5は評価対象のモデルであると同時に、回答をスコアリングする3人の判定員の一人でもあります。著者は個別の偏見を減らすために3人の判定員を使用しており、これは助けにはなりますが、最強の評価対象モデルと判定員が重複している点は懸念が残ります。論文では判定員間の高い一致率が報告されていますが、GPT-5の回答のうちどの程度をGPT-5自身がスコアリングしたのか、またGPT-5の自己評価スコアが他の2人の判定員と系統的に異なっていないかについては、別途定量化されていません。自己評価の偏りがあれば、トップモデルの結果が水増しされている可能性があります。

また、43社というサンプル数はやや少ないと言わざるを得ません。提出書類の種類（10-K, 10-Q, 8-K, 6-K, DEF 14A, S/SCシリーズなど）は称賛に値するほど広範ですが、すべてのタスクで同じ43社が登場します。事前学習でこれらの企業の開示情報を見ているモデルには定量化できない有利な条件があり、論文には汚染分析（contamination analysis）が含まれていません。

検索に関する発見は重要ですが、不完全です。検索に失敗するため、RAGの性能がゴールドコンテキストと比較して約30ポイント崩壊することを特定していますが、評価されているのは単一の検索設定のみです。検索の失敗を診断結果として扱うだけでなく、系統的に変化させるべきでした。Fin-RATEを用いて検索アーキテクチャを網羅的に調査する後続論文があれば、より実用的な知見となるでしょう。

なぜこれが財務AI（Finance AI）にとって重要なのか

Beancountの帳簿監査には、Fin-RATEが「壊れている」と明らかにした2つの能力がまさに必要です。それは、経時的トラッキング（この勘定科目は会計年度を通じてどのように推移したか？）と、エンティティ（企業）横断の比較（この子会社の貸借対照表は連結財務諸表と整合しているか？）です。時間的トラッキングにおける18.60%の精度低下という数字は、複数の報告期間にわたって推論を行うBeancountエージェントに期待すべき性能を調整するための具体的な指標となります。最先端モデルでも、理想的な文脈下での経時的SEC QAで43%しか正解できないのであれば、数年分の帳簿履歴をナビゲートするBeancountエージェントは、エンドツーエンドのLLM推論ではなく、明示的な検索、時間的なグラウンディング、そして人間へのエスカレーションを組み込んで設計されるべきです。

検索が支配的であるという発見は、システム設計の優先順位において最も重要です。ゴールドコンテキストの性能がRAGの性能のほぼ2倍であるならば、投資すべきはより有能なバックボーンLLMではなく、より優れたチャンキング、パッセージの選択、および検索手法です。これは、DocFinQAが長いSEC提出書類において発見したこと、すなわち「モデルの周囲にあるパイプラインこそがボトルネックである」という事実を反映しています。

Fin-R1への警告も、Beancountのユースケースに直接当てはまります。Beancount DSLの構文やトランザクションパターンに特化したファインチューニングを行えば、単純な仕訳生成は得意なモデルができるかもしれませんが、監査において有用な「複数口座、複数期間の照合」においては崩壊する可能性があります。複数ドキュメント推論のトレーニングを伴わない専門化は、Fin-RATEが測定した通りの脆さを抱えることになります。

次に読むべきもの

Fin-R1 (arXiv:2503.16252) — どのような学習設定がこれほど脆いドキュメント横断性能を生んだのか、そして複数ドキュメント推論がそもそもスコープに入っていたのかを理解するために。
FinTrace (arXiv:2604.10015) — 34の財務タスクカテゴリーにわたるLLMツール呼び出しの軌道レベルの評価。Fin-RATEの静的なQA視点を補完し、モデルが正しいツールを呼び出しつつも結果の推論に失敗する箇所をプロセスレベルで診断。
OpenHands (arXiv:2407.16741) — TheAgentCompany評価の基盤となるオープンエージェントプラットフォーム。そのアーキテクチャを理解することで、どのベースラインエージェント機能が利用可能で、どのギャップがプラットフォームの制限ではなくタスクの難易度に起因するのかを明確にします。

FinDER: 実務のアナリストによるクエリが財務RAGにおける74%の再現率の乖離を露呈

Sun, 28 Jun 2026 00:00:00 GMT

FinDER (arXiv:2504.15800) は、シンプルながらも見過ごされがちな観察に基づいて構築された検索ベンチマークです。それは、実際の財務専門家が入力するクエリは、学術的なベンチマークにあるような洗練された質問とは全く異なるという点です。私がこの論文を読んでいるのは、私が追跡してきた2つの流れ、つまり財務AIにおける検索のギャップと、DocFinQAやFinanceBenchが露呈し始めた実用的なリアリズムの問題の交差点に位置しているからです。

論文の概要

Chanyeol Choi氏、Jihoon Kwon氏、および財務AI企業の同僚らは、実際のヘッジファンドアナリストのQ&Aサービスから提供された、専門家によって注釈が付けられた5,703件の「クエリ・根拠・回答」のトリプレットのデータセットを発表しました。ドキュメントは、SEC EDGARから収集されたS&P 500企業490社のForm 10-K提出書類です。FinDERを以前のベンチマークと区別するのはクエリ側です。クエリの89.86%には、3つ以上のドメイン固有の略語や頭字語が含まれています。「2023会計年度のX社の総収益はいくらですか？」の代わりに、実際のアナリストは「GOOGL 10-K FY23 revs breakdown by segment」と入力するかもしれません。このデータセットはICLR 2025の財務AIの進歩に関するワークショップで発表され、その後ICAIF 2025に掲載されました。

主なアイデア

検索の再現率は全体的に驚くほど低い: E5-Mistral（最高の密ベクトル検索モデル）は全体のコンテキスト再現率でわずか25.95%しか達成できず、BM25は11.68%にとどまりました。会計に最も直接関連する「財務（Financials）」カテゴリは最も困難で、それぞれ15.84%と6.42%でした。
クエリの曖昧さだけで適合率が8.2ポイント低下する: 著者らが500件のクエリでE5-Mistralをテストしたところ、適切に構成された言い換え（適合率33.9）と、実際の略語を含むクエリ（適合率25.7）を比較しました。この乖離はドキュメントの複雑さではなく、完全に略語/頭字語の処理に起因しています。
検索品質が生成の支配的なボトルネックである: コンテキストのないLLMのスコアはほぼゼロ（正解率9〜10%）ですが、検索された上位10個の文章を提供すると29〜34%に達し、完璧なオラクル（正解）コンテキストでは60〜68%に急上昇します。現実的な条件とオラクル条件の間の35ポイントの差は、オープンソースモデルと最先端モデルの間の差よりも大きくなっています。
複合的な算術演算は良好な検索結果があっても停滞する: 上位10個の検索結果を提供した場合でも、Claude-3.7-Sonnet、GPT-o1、DeepSeek-R1-Distill、Qwen-QWQの4つのモデルすべてにおいて、多段階の計算タスク（複合クエリ）の正解率は約20%にとどまりました。GPT-o1は掛け算タスクで42.90%とリードしていますが、割り算では27.78%に低下します。
LLMによる再ランキングは、控えめながらも一貫した改善をもたらす: 回答前にモデルにE5-Mistralの上位10件の結果を再ランキングさせたところ、Claude-3.7-SonnetはF1スコア63.05、GPT-o1は62.90を達成しました。Deepseek-R1-Distillは、他の構造化推論で強力なパフォーマンスを示しているにもかかわらず、60.01と後塵を拝しました。
カテゴリごとの難易度は不均一: リスク（Risk）に関するクエリは最も検索しやすく（E5-Mistral: 再現率33.07）、財務（Financials）は依然として最も困難です（15.84）。これはクエリの構造と相関しており、リスク開示は自然言語の文章を使用するのに対し、財務諸表は密な数値表記を使用するためです。

何が正当で、何が不十分か

核となる貢献は強固です。これは実務のアナリストによる実際のクエリ分布であり、略語の問題は本物です。WikipediaやFinQAスタイルのクラウドソーシングから構築されたベンチマークでは、これを見逃してしまいます。「コンテキストなし、現実的な検索、オラクルコンテキスト」という3層の評価構造は正しい設計です。これにより、検索の品質と推論の品質が明確に分離され、定性的な質問に対して完璧なコンテキストがあっても依然として約32〜34%の失敗があるという、生成における残存するギャップが示されています。

この論文の最も弱い点は再現性です。発表当時、データセットは公開されておらず、著者らは「後日公開する予定である」と述べています。評価基準を自称するワークショップ論文にとって、これは重大な問題です。公開されないベンチマークはベンチマークではなく、ケーススタディに過ぎません。その後ICAIF 2025に掲載されたため、公開された可能性がありますが、arXiv版では確認できません。

また、検索評価では、4つのシングルステージモデル（BM25、GTE、mE5、E5-Mistral）のみが使用されています。ハイブリッド検索も、クエリ拡張も、HyDEも、略語の問題を特にターゲットにしたリライトステップもありません。著者らが略語による乖離を正確に特徴づけていることを考えると、検索前にクエリを拡張する（例：「GOOGL」→「Alphabet Inc.」）という明白な解決策をテストしていないのは驚きです。その実験は欠落しています。

生成の結果については、より詳しく読み解く必要があります。コンテキストなしでの約9〜10%のパフォーマンスは、有用な下限値ではなく、実質的にゼロです。しかし、60〜68%のオラクルシーリング（上限）は、見かけ以上に示唆に富んでいます。正しい一節が手元にあっても、最高のモデルでさえ定性的な質問の約3分の1、複合的な算術演算の5分の4で失敗します。この天井が重要なのです。つまり、検索だけでは問題を解決できないことを意味しています。

なぜこれが財務AIにとって重要なのか

FinDERにおけるクエリの分布は、Beancountユーザーが実際に元帳エージェントとやり取りする方法とよく一致しています。長年アカウントを維持してきたユーザーは、「Q3のアマゾンのクレジットカードの払い戻しは何ですか？」ではなく、「AMZN card Q3 reimb?」のような、略語を含み文脈に依存したクエリを入力するでしょう。標準的な埋め込みモデルは、クリーンな自然言語テキストでトレーニングされているため、正しいエントリの検索に失敗します。クリーンなクエリから実際のクエリへの8.2ポイントの適合率低下は、個人の元帳ドメインにおいてはおそらく控えめな数字です。そこでは、SEC標準の略語よりもトレーニングデータからさらに遠い、独自の略記（例：property management feeを「prop mgmt fee」とする）が使われるからです。

E5-Mistralにおける25.95%というコンテキスト再現率の天井は、ひとつの強制関数となります。Beancount RAGパイプラインは、証拠の大部分を見逃すことを想定して設計する必要があります。一つの含意は、1回のパスでF1スコアを追求するよりも、高再現率の再検索（複数回のパス、多様なクエリ形式）の方が重要であるということです。もう一つは、検索前にユーザーの略記を標準的な勘定科目にマッピングする「クエリの正規化」を、埋め込みモデルに任せるのではなく、明示的な前処理ステップにすべきであるということです。

オラクルコンテキストがあっても20%という複合算術演算の精度は、別のシグナルです。Beancountの計算タスクにおいて、生成のボトルネックは検索ではなく推論です。数値タスクに対しては、検索がどれほど向上したとしても、PAL（Program-Aided Language models）スタイルのオフローディング（自由形式の計算ではなくPythonの算術演算を生成する）が依然として正しい答えです。

次に読むべきもの

Fin-RATE (arXiv:2602.07294) — SEC提出書類における複数期間の追跡のためのコンパニオンベンチマーク。時間的タスクでは精度が18.60%低下します。これはBeancountの多年度にわたる元帳の問題に直結しています。
IRCoT (arXiv:2212.10509, ACL 2023) — 検索と思考の連鎖（CoT）推論を交互に行う手法。マルチパス検索構造は、FinDERが露呈したシングルパスでの低い再現率に直接対処します。
ドメイン固有の検索のためのLLMによるクエリ拡張 — これを十分にカバーした単一のベンチマーク論文はまだありませんが、FinDERの略語のギャップを考えると、これは最優先の研究課題です。「HyDE financial domain」や「query expansion SEC filings 2025」で検索するのが良い出発点です。

Lost in the Middle：LLMにおける位置バイアスと金融AIへの影響

Sat, 27 Jun 2026 00:00:00 GMT

DocFinQAのエントリを振り返ると、リトリーバルベースのパイプラインとロングコンテキストLLMの両方が、123Kトークンのコンテキストを持つSEC提出書類で崩壊した際、私は「なぜか」という問いを残しました。Liuらによるこの論文（TACL 2024, arXiv:2307.03172）は、そのメカニズム的な回答であり、失敗のモードは私が予想していたよりも単純で頑固なものであることが判明しました。

論文の概要

Nelson F. Liuらによる「Lost in the Middle: How Language Models Use Long Contexts（迷子の中央：言語モデルは長いコンテキストをどのように利用するか）」では、2つの焦点を絞った実験が行われました。1つはNaturalQuestions-Openを用いたマルチドキュメント質問応答（取得ドキュメント数10、20、30）、もう1つは合成キー・バリュー・リトリーバル（ペア数75、140、300）です。各実験では、入力コンテキスト内の関連ドキュメントやキー・バリュー・ペアの位置（最初、中間、最後）を系統的に変化させ、他の条件はすべて固定しました。その結果は明白でした。パフォーマンスはコンテキストの中央を底とするU字型の曲線を描き、この曲線はテストされたすべてのモデルで現れました。

主なアイデア

U字型は実在し、一貫している。 20ドキュメントのQA設定では、最初の位置でのパフォーマンスは約75%でしたが、10番目の位置では約55%まで低下し、20番目の位置で約72%まで回復しました。端と中央の間には約20ポイントの差があります。
すべてのモデルが同じパターンに従う。 テストされたモデルは、クローズドソースからオープンソース、小規模から大規模まで多岐にわたります：GPT-3.5-Turbo (4Kおよび16K)、GPT-4、Claude-1.3 (8Kおよび100K)、MPT-30B-Instruct、LongChat-13B。U字曲線は、拡張コンテキストウィンドウを明示的に謳っているモデルを含め、すべてのモデルで確認されました。
Claude-1.3-100Kでさえ免れない。 100Kコンテキスト版も他と同様の挙動を示しました。長いコンテキストウィンドウがあるからといって、モデルがその全域にわたって均一に注意を払っているわけではありません。
クローズドブック・ベースラインが突きつける厳しい現実。 ドキュメントなしのGPT-3.5-TurboはNaturalQuestionsの56.1%に正解しました。関連する1つのドキュメントのみにアクセスできるオラクル状態では88.3%に達しました。しかし、20ドキュメント設定の最悪の中間位置では、パフォーマンスはクローズドブック・ベースラインを下回りました。つまり、コンテキストを追加することがかえって有害となったのです。
エンコーダ・デコーダモデル（Flan-T5-XXL, Flan-UL2）は、訓練された長さの範囲内ではより堅牢だが、コンテキストがそれを超えると劣化する。 アーキテクチャの違いは重要ですが、スケールアップするとどちらも依然として劣化します。
根本的な原因は因果的アテンション・マスキング（Causal Attention Masking）にある。 各トークンは先行するトークンにしか注意を向けられないため、最初の位置は中央の位置よりもモデル全体で累積的なアテンションの重みをより多く獲得します。また、近接効果（Recency effects）により、コンテキストの最後の方も引き上げられます。

妥当な点とそうでない点

この実験設計は見事なほどクリーンです。位置だけが操作された変数であり、タスクは標準的なベンチマークであり、結果は幅広いモデルファミリーで再現されています。中心的な結果に異論はありません。

一方で、キー・バリュー・リトリーバルタスクを実務の有効な代用（プロキシ）として位置づけている点には、あまり納得がいきません。UUIDからUUIDへのルックアップは、モデルが記憶された文字列をそのまま返せるかどうかをテストするものであり、推論を必要とする能力をテストするものではありません。U字曲線がそこでも現れることは位置バイアスの主張を強めますが、同時にこの論文が「完全一致タスクにおけるリトリーバル精度」と「関連パッセージにわたる推論の質」という2つの異なる現象を混同していることも意味します。私が知りたいのは、最終的な回答の前にマルチステップの推論が必要な場合、U字型の劣化が悪化するのか、それとも改善するのかという点です。

また、著者が概ね認めていながら解決していないギャップもあります。彼らはインストラクション・ファインチューニングやRLHFが位置感度を変化させるかどうかをテストしておらず、コンテキストウィンドウの大きさが影響するかどうかのみをテストしています。根本原因がアーキテクチャ（因果的マスキング）にあることを考えると、インストラクション・チューニングでは解決しないのではないかと推測しますが、論文では確認されていません。

なぜこれが金融AIにとって重要なのか

この論文は、私が頻繁に直面する経験的なパターンにメカニズム的な説明を与えてくれます。DocFinQAは長いSEC提出書類で崩壊しました。IRCoTやFLAREは、推論の前に複数のパッセージを取得して連結します。私が金融コンテキストで見てきたすべてのRAGパイプラインは、取得したパッセージを順次プロンプトに投入し、モデルが正しいものに注意を向けることを期待しています。

Beancountエージェントへの示唆は具体的です。エージェントが10個の元帳エントリをコンテキストとして取得した場合、3番目から7番目の位置にあるエントリは、無視されたり、その周囲でハルシネーション（幻覚）が発生したりするリスクが最も高くなります。これはリトリーバルの問題ではなく、提示（プレゼンテーション）の問題です。この論文から導き出される対応は2つあります。診断的に最も関連性の高いエントリを最初（および最後）に配置するか、あるいは連結を一切行わず、一度に1つのパッセージに対して推論を行うかです。

この発見は、ロングコンテキストLLMのナラティブを複雑にします。四半期ごとに、新しいモデルがより大きなコンテキストウィンドウを発表します。しかしこの論文は、証拠を均一に分散させているのであれば、ウィンドウが長いことは期待通りの意味をなさないと述べています。関連する取引を60Kの位置に埋没させてしまう128Kコンテキストモデルは、正確に正しいパッセージを取得する4Kコンテキストモデルよりも劣ります。

ライトバック（書き戻し）の安全性に関しても、不穏な示唆があります。モデルが元帳セッションの要約を求められ、関連する「この取引を投稿してはならない」というポリシー・ルールが長いシステムプロンプトの中央に現れた場合、モデルはそのルールを一度も読んでいないかのように振る舞う可能性があります。

次に読むべきもの

"Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding" (Zhang et al., arXiv:2403.04797) — RoPEスケーリングを介した訓練不要の修正案としてMulti-scale Positional Encoding (Ms-PoE)を提案。Zero-SCROLLSで最大3.8ポイントの改善を謳い、U字曲線に直接対処しています。
"Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training" (arXiv:2311.09198) — 逆のアプローチをとり、明示的に位置に依存しないようにモデルを訓練。Ms-PoEとの比較により、ファインチューニングと推論時の工夫のどちらがより効果的かが明確になります。
"Mitigate Position Bias in Large Language Models via Scaling a Single Dimension" (arXiv:2406.02536) — バイアスの原因となっている特定のポジショナル隠れ状態の次元を特定し、再訓練なしでスケール調整を行う手法。これまでに提案された中で最も外科的な修正であり、既存モデルを再訓練なしでデプロイする際に関連します。

AD-LLMベンチマーク：GPT-4oがテキスト異常検知においてゼロショットで0.93以上のAUROCを達成

Fri, 26 Jun 2026 00:00:00 GMT

このシリーズの過去2回の記事では、テーブルデータの異常検知に対するファインチューニングおよびプロンプトエンジニアリングによるアプローチであるAnoLLMとCausalTADを取り上げました。これらを実運用規模で導入する前に、より広範な異常検知パラダイムにおいてLLMが実際にどのような位置にあるかを知る必要があります。それがAD-LLMの明確な目標であり、ゼロショット検出器、データ拡張エンジン、モデル選択アドバイザーという3つの異なる役割にわたってLLMをベンチマークしています。対象はテーブル形式の元帳エントリーではなくNLPテキストデータですが、その手法から得られる教訓は転用可能です。

論文について

USCとテキサスA&M大学のTiankai Yang、Yi Nian氏らは、NLPデータセットにおける3つの異常検知パラダイムにわたってLLMを体系的に評価する初のベンチマークであるAD-LLM（arXiv:2412.11142, ACL Findings 2025）を発表しました。設定は「1クラス分類」です。つまり、学習データには正常なサンプルのみが含まれ、モデルはテスト時に異常をフラグ立てする必要があります。使用された5つのデータセット（AG News、BBC News、IMDB Reviews、N24 News、SMS Spam）はすべて、1つのカテゴリを異常として指定したテキスト分類タスクに由来します。本論文では、GPT-4oとLlama 3.1 8B Instructの2つのLLMを、エンドツーエンド手法（CVDD、DATE）や2段階の埋め込み＋検出器の組み合わせ（OpenAI埋め込み + LUNAR、LOF、Isolation Forestなど）を含む18の伝統的な教師なしベースラインと比較しています。

主なアイデア

テキストのゼロショット検出は良好に機能する。 GPT-4oは、正常＋異常の設定において5つのデータセットにわたり0.9293～0.9919のAUROCを記録しました。Llama 3.1は0.8612～0.9487に達しました。最高の伝統的ベースラインであるOpenAI + LUNARはAG Newsで約0.92を記録しましたが、GPT-4oはトレーニングなしでこれに匹敵するか、あるいは上回りました。
合成データ拡張は一貫して、しかし控えめに役立つ。 LLMによって生成された合成サンプルは、5つすべてのデータセットにおいてOpenAI + LUNARのパイプラインを改善しました。カテゴリ説明の拡張もほとんどのベースラインを改善しましたが、その効果は不均一でした。Llama 3.1はIMDB ReviewsでAUROCを+0.07向上させましたが、他の場所での結果はより小さなものでした。
モデル選択が弱点である。 GPT-o1-previewは、ほとんどのデータセットで平均的なベースラインパフォーマンスを超えるモデルを推奨し、時には最良の手法に近づくこともありました（例：IMDB ReviewsやSMS Spam）。しかし、トップパフォーマンスのモデルを確実に特定することはできず、著者らは推奨事項がデータセット固有の統計を欠いた単純な入力に基づいていることを認めています。
オープンソースとプロプライエタリの差は歴然としている。 Llama 3.1 8Bに対するGPT-4oのAUROCの優位性はデータセットによって4～13ポイントあり、これはゼロショットのテーブルデータ異常検知に関する論文で見られるパターンと一致しています。
NLP異常検知には、まだ決定的なベンチマークが欠けている。 分類コーパスから派生した5つのデータセットだけでは不十分です。姉妹論文であるNLP-ADBench（EMNLP Findings 2025）では8つのデータセットと19のアルゴリズムに拡大されていますが、依然として「意味的カテゴリを異常とする」という、タスクをやや人工的なものにしている構成を使用しています。

妥当な点とそうでない点

ゼロショットに関する知見は信頼に値します。ラベル付けされた異常データでファインチューニングすることなくLLMをスコアラーとして使用することは、異常クラスが意味的に一貫している場合には極めて有用です。スパムメッセージは、十分にトレーニングされた言語モデルが理解できる方法で、通常のメッセージとは異なります。AUROCの数値は高く、強力なOpenAI埋め込みベースのベースラインとの比較も公平です。

しかし、その範囲は、論文が控えめに表現している以上に限定的です。5つのデータセットすべてにおいて、異常は「トピックカテゴリ」の違い（スパム対正当なSMS、特定の出版社からのニュース対配布内の媒体など）としてエンコードされています。つまり、LLMは本質的にトピック分類を行っているだけであり、これはLLMが明示的に事前学習されているタスクです。このベンチマークには、同一カテゴリ内の意味的異常（例：同じ勘定科目内での異常な取引）は含まれていません。これこそが、財務監査において重要となる種類の異常です。

データ拡張とモデル選択のタスクも同じ5つのデータセットで評価されているため、結局のところ、LLMが同じ狭い問題のわずかに異なる側面をわずかに改善できるかどうかをベンチマークしているに過ぎません。著者らは、LLMのサブセットのみをテストしたこと、フューショットやファインチューニング体制を除外したこと、モデル選択に単純な入力に頼ったことなど、6つの限界を率直に列挙しています。これは知的誠実さの表れですが、このベンチマークがいかに予備的なものであるかを示しています。

懐疑派が注目すべき結果が一つあります。両モデルとも、AUPRCスコアはAUROCよりも大幅に低くなっています。BBC NewsにおけるLlama 3.1はAUROC 0.8612に達していますが、AUPRCはわずか0.3960であり、これは1クラス設定におけるクラスの不均衡を反映しています。高精度な監査の文脈ではAUPRCの方がより意味のある指標であり、この点では結果はそれほど芳しくありません。

財務AIにとってなぜ重要か

Bean Labsの計画には、2つの異常検知ユースケースがあります。リアルタイムでの異常な元帳エントリーの捕捉（構造化されたテーブルデータ）と、請求書、メモ、またはサポートチケット内の不審な記述テキストのフラグ立て（非構造化NLP）です。AD-LLMは後者のケースに直接関連しており、現実的な限界値を示してくれます。GPT-4oは、クリーンでバランスの取れたデータセットにおいて、テキスト内のトピックレベルの異常をAUROC 0.93以上でゼロショット検知できます。これは有用な先行知見ですが、元帳の記述の異常はより微妙です。日常的なサービスを説明している請求書メモであっても、不審なパターンでフラグが立てられたベンダーに属している場合、それはトピック分類の問題ではありません。このベンチマークは出発点を提供してくれますが、答えではありません。

モデル選択に関する知見は、システム設計の観点から別に興味深いものです。「このデータセットにはどの異常検出器を使うべきか？」とLLMに問いかけ、信頼できる答えを得るという夢は、まだ実現していません。つまり、AnoLLMスタイルのファインチューニング、CausalTADスタイルの因果プロンプト、あるいは古典的な埋め込み手法のどれを選択するかは、依然として人間の判断や体系的な経験的評価を必要とし、LLMアドバイザーに委ねることはできません。

次にお読みください

NLP-ADBench (arXiv:2412.04784, EMNLP Findings 2025) — 同じグループによる姉妹ベンチマーク。8つのデータセットと19のアルゴリズムをカバーしており、AD-LLMの5つのデータセットでは網羅できない、より広範な古典的ベースラインのコンテキストを提供します。
Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey (arXiv:2409.01980, NAACL Findings 2025) — テキスト、画像、テーブルの各モダリティにわたるLLMベースの異常検知アプローチの全体像を調査しており、先行研究と比較したAD-LLMの位置付けを補完します。
AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — テーブルデータの対応版。その尤度ベースのアプローチとAD-LLMのプロンプトベースのゼロショット戦略を比較することで、Beancountの元帳エントリーに対してどちらのパラダイムがより適切であるかが明確になります。

CausalTAD: LLMによるテーブルデータの異常検知のための因果関係に基づく列順序付け

Thu, 25 Jun 2026 00:00:00 GMT

前回のログでは、負の対数尤度を通じてテーブルデータの異常をスコアリングするために小規模LLMを微調整するAnoLLMを取り上げました。CausalTAD (arXiv:2602.07798) は、鋭い追随的な問いを投げかけます：LLMに提供する列の順序は重要なのでしょうか？その答えは「イエス」であることが判明しました。順序付けに因果構造を注入することで、一貫性のある再現可能な精度向上が得られます。

論文

Wangらは、AnoLLM型のLLM異常検知器の上に位置し、一つの的を絞った変更を加えるメソッド、CausalTADを提案しています。テーブルの行をランダムまたは任意の列順序でシリアライズする代わりに、列間の因果関係を特定し、LLMが行を読み取る前にそれらの依存関係を尊重するように並べ替えます。

この論文には2つの主要な構成要素があります。1つ目は、因果駆動型の列順序付けモジュールです。著者らはCOAT因子抽出フレームワークを適応させています。LLMが列のメタデータとサンプルを読み取り、高レベルのセマンティック（意味的）因子を抽出します（例えば、クレジットカードの取引であれば、「報酬」という因子が金額と加盟店の列にまたがる可能性があります）。これらの因子から、PC、LiNGAM、FCIという3つの因果発見アルゴリズムが、因子間の有向因果グラフを構築します。すると、列の再順序付け問題は線形順序付け問題（Linear Ordering Problem）となります。つまり、シリアライズされたテキストにおいて原因となる列が結果となる列の前に現れるように、有向エッジの重みの合計を最大化する置換πを見つけることです。この線形計画法（LP）には多くの準最適な解があるため、最適解の90%以内にある順序をK ≈ 10個サンプリングし、それらを平均化します。

2つ目は、因果認識型の再重み付けモジュールです。すべての列が等しく重要であるわけではありません。多くの因子に影響を与える列には、それが寄与する因子の数 αj = |M⁻¹(cj)| に基づいて、より高い重みが割り当てられます。最終的な異常スコアは、K個の順序における各列の負の対数尤度の加重平均となります。

主要なアイデア

列の順序付けは、自己回帰型LLMにとって自明ではない帰納バイアスです。原因となる列を結果となる列の前に配置することで、モデルは結果に尤度を割り当てる際、正しいコンテキストに基づいて条件付けを行うことができます。
（生の列レベルではなく）因子レベルでの因果発見を行うことで、異質な列間の直接的な因果発見にノイズが混じりやすい混合型のテーブルを扱うことができます。
6つの混合型ベンチマークデータセットにおいて、SmolLM-135Mを使用したCausalTADは、AnoLLMの0.803に対して平均AUC-ROC 0.834に達しました。これは、同じバックボーンモデルを使用しながら、絶対値で3.1ポイントの向上です。
特にFake Job Postsデータセットでは、CausalTADはAnoLLMの0.800に対して0.873を記録しました。これは9.1%の相対的な向上であり、実際のトリアージシステムにおいて重要な意味を持つほどの差です。
30の数値型ODDSベンチマークデータセットにおいて、CausalTADは最高の平均AUC-ROCを達成し、従来のベースライン（Isolation Forest、ECOD、KNN）やディープラーニング手法（DeepSVDD、SLAD）を一貫して上回りました。
アブレーション研究では、3つの因果発見アルゴリズムすべてがランダムな順序付けを上回りました。混合データセットではLiNGAMがPCやFCIをわずかに上回る結果となりました。

評価できる点と懸念点

「因果関係に基づく列の順序が役立つ」という核心的な主張は、十分に裏付けられています。アブレーション研究も明快です。ランダムな順序付けを3つの因果発見手法のいずれかに置き換えることで、Fake Job Postsベンチマークの結果が向上し（0.832から0.870–0.873へ）、因子数による再重み付けもすべての構成でさらなる助けとなっています。これは信頼できる話です。

私が納得しにくいのは、ブートストラップの仮定です。因果グラフは、システムが分析対象とするデータそのものからLLMを使用してセマンティック因子を抽出することによって構築されます。もしLLMがドメインを誤解した場合（例えば、非標準的な列名を持つ特注の会計システムなど）、因子抽出は誤ったものになり、誤った因果グラフは系統的なバイアスを導入するため、ランダムな順序付けよりもかえって悪影響を及ぼす可能性があります。著者らはこのリスクを認めていますが（「因子抽出のためのLLMの能力に依存する」）、因子抽出の精度を独立してベンチマークしているわけではありません。

また、論文で示唆されているよりも深刻な計算オーバーヘッドの問題があります。3つの因果発見アルゴリズムを実行し、LPを解き、K個の順序をサンプリングし、さらにテストポイントごとにK個のシリアライズされたバージョンに対して推論を実行することは、推論コストをK倍に増やします。数百万の仕訳（エントリ）がある元帳の場合、これは無視できません。論文では「将来の課題として効率の向上に焦点を当てる可能性がある」と述べていますが、具体的なプロファイリングは示されていません。

最後に、30の数値型ODDSデータセットはよく研究されており、この種の手法にとっては飽和状態にあると言えます。より意味のあるシグナルは、金融において現実的な6つの混合型データセットにあります。そこでの改善は本物ですが、絶対的な数値で見るとやや控えめです。

なぜこれが金融AIにとって重要なのか

Beancountのトランザクションには、真の因果構造が存在します。記帳（posting）の金額は勘定科目の選択を因果的に左右し、勘定科目は取引相手（counterparty）の予測を左右し、摘要（memo）のテキストはこれら3つすべての因果的な下流に位置します。ランダムな列のシリアライズはこれを無視するため、AnoLLM型のモデルは、「memo: groceries | account: Expenses:Food | amount: $4200」という順序を、正しく並べ替えられたバージョンと同じように扱ってしまいます。

CausalTADは、ルールとしてハードコーディングすることなく、「金額と勘定科目を先頭に置く」ということをエンコードするための原則的な方法を提供します。Bean Labsの監査エージェントにとって、これは実用的なアーキテクチャの選択肢を示唆しています。トランザクションのバッチの異常をスコアリングする前に、元帳の列スキーマに対して因果グラフを発見するためのパスを1回実行し、その後のすべての推論にその固定された順序を使用するのです。オーバーヘッドはトランザクションごとではなく、スキーマレベルで一度支払うだけで済みます。

論文にあるクレジットカードの不正検知の例は、本質的に元帳の異常検知と同じタスク構造を持っています。つまり、不均一な特徴、稀なラベル、そしてドメインエキスパートは直感的に理解しているが、そうでなければLLMが無視してしまう因果順序です。

次に読むべきもの

AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — CausalTADが適合する、3つのLLM異常検知パラダイムにわたる体系的なベンチマーク。これを読むことで、AnoLLM対CausalTADという単一の比較ではなく、全体像を把握できます。
COAT: Boosting Large Language Model-Based In-Context Learning for Tabular Data (Liu et al., 2024) — CausalTADが適応させた因子抽出フレームワーク。その仕組みを理解することで、因果グラフの品質がどこで損なわれる可能性があるかが明確になります。
Causal discovery in heterogeneous data: a survey — 混合型テーブルデータにおけるPC対LiNGAM対FCIの相対的なメリットを理解するために役立ちます。論文ではこれら3つを互換性があるものとして扱っていますが、それぞれ異なる独立性の仮定を置いています。

AnoLLM: 財務データにおけるテーブルデータの異常検知に向けたLLMのファインチューニング

Wed, 24 Jun 2026 00:00:00 GMT

2日前に読んだゼロショットLLM異常検知の論文（arXiv:2406.16308）では、GPT-4がトレーニングなしでテーブルデータの外れ値を特定でき、ODDSベンチマークにおいてECODのような従来のベースラインに匹敵することを示していました。しかし、モデルに異常な行のインデックスのリストを出力させるという点に明らかな弱点がありました。オープンソースのモデルは日常的にインデックスを捏造（ハルシネーション）したり、範囲外を指定したり、すべての行を疑わしいとしてフラグを立てたりするため、非常に脆弱です。AmazonのChe-Ping Tsai、Ganyu Teng、Phillip Wallis、Wei DingらによってICLR 2025で発表されたAnoLLMは、この脆弱性を修正しつつ、純粋な数値ベースラインが苦戦し始める混合型データセットへと領域を広げています。

論文について

AnoLLMは、テーブルデータの異常検知を、プロンプトによる分類ではなく、言語モデルの密度推定として再構築します。LLMにどの行が疑わしいかを答えさせる代わりに、著者らは事前学習済みの言語モデルをシリアル化されたイン分布（正常）のトレーニング行でファインチューニングし、学習した分布における負の対数尤度（NLL）によって各テスト行をスコアリングします。トレーニング分布と全く似ていない行は高いNLLを得、それが異常スコアとなります。インデックスの形式も、出力のパースも、脆弱な正規表現による抽出も不要です。

シリアル化により、各テーブルの行は特徴量名と値を持つ自然言語の文字列に変換されます。テキスト値の列については、記述が長くなることで機械的に確率コストが累積するのを防ぐため、NLLは列ごとに正規化されます。数値およびカテゴリ列については、生のトークンレベルのNLLがフィールド全体で合計されます。モデルは準教師あり学習の設定でファインチューニングされ、正常ラベルの付いた行のみがトレーニングに使用されます。分散GPUトレーニングを用いて最大2,000ステップまで学習が行われます。

重要なアイデア

出力形式の問題: 従来のインデックス予測アプローチでは、LLMがバッチから異常な行のインデックスを確実に提供する必要がありました。Llamaファミリーのモデルは、間違ったインデックスを値と組み合わせたり、バッチサイズを超えるインデックスを生成したり、単にすべてを異常としてリストしたりすることが頻繁にあります。NLLはこれを完全に回避します。
AnoLLMは、車両保険の不正検知やKaggleのeコマース不正データセットを含む、混合型の特徴量タイプを持つ6つのベンチマークデータセットで最高のパフォーマンスを達成しました。
主に数値で構成される30のODDSベンチマークデータセットにおいて、AnoLLMはトップクラスの従来のベースラインと同等の性能を示しました。明らかに優れているわけではなく、競争力があるというレベルです。
テキスト特徴量に対する「1列あたりのNLL正規化」は、小さいながらも重要なエンジニアリング上の決定です。これがないと、30トークンのトランザクションの説明が、2桁の金額よりもスコアを支配してしまい、誤った帰納バイアスが生じてしまいます。
トレーニングベースラインの背景: ゼロショットGPT-4アプローチ（arXiv:2406.16308）は、ODDSで平均AUROC 74.1を達成しており、これはECOD（75.5）やKNN（70.7）に匹敵します。AnoLLMの優位性は、特にテキストやカテゴリの特徴量が意味のある異常シグナルを持つデータセットにおいて発揮されます。

評価できる点と課題

NLLを核とするアイデアは堅実です。ファインチューニングされた言語モデルをシリアル化された行に対する密度推定器として使用することは理にかなっており、すべての列の同時分布を自然に扱うことができます。これは、列ごとに適用される従来の教師なし検知器ではクリーンに行えないことです。インデックス予測の修正は非常に有用であり、ゼロショットのベースラインとの比較も公平です。

気になるのは、論文で十分に報告されていないコスト対効果のギャップです。AnoLLMは、推論のためにLLMのファインチューニングとサービングを必要としますが、これはCPU上で数秒でECODやIsolationForestを実行するのと比較して、かなりのインフラ投資を意味します。ODDSベンチマーク（純粋な数値データ）において、AnoLLMは「同等」であり、それ以上ではありません。したがって、AnoLLMのケースは完全に混合型データの領域にありますが、評価された6つのデータセットはKaggleの不正検知データです。6つのデータセットというのは、強力な推奨を行うための実証的な基盤としては薄いと言わざるを得ません。特に、Kaggleのベンチマークデータセットは、クリーンなスキーマ、固定された列のセマンティクス、既知の正解ラベルを持つ傾向がありますが、これらは本番環境のレジャー（帳簿）データには欠けていることが多い要素です。

列の順序の問題も未解決のままです。CausalTAD (arXiv:2602.07798) は即座にこのギャップを指摘しました。AnoLLMは列を任意の順序でシリアル化し、フィールド間の因果関係を無視しています。勘定科目のタイプが有効な取引範囲に影響を与え、それが期待される取引先に影響を与えるといった、因果関係の連鎖が分かっている構造化データにとって、これは現実的な制限です。CausalTADは並べ替えを線形順序付け問題として構成し、30以上のデータセットでAnoLLMを上回る一貫した改善を報告しています。このギャップが存在し、これほど早く発見されたことは、AnoLLMのシリアル化設計が十分に検討されていなかったことを示唆しています。

また、論文で言及されていないスケールの問題もあります。数値特徴量で直接トレーニングされたテーブルデータ用ディープラーニングモデルなどと比較して、どの程度のボリュームの正常なトレーニングサンプルがあれば、LLMのファインチューニングに価値が出るのでしょうか？数千件のエントリしかない個人のBeancountレジャーの場合、計算コストが精度の向上を簡単に上回ってしまう可能性があります。

なぜこれが財務AIにとって重要なのか

Beancountのレジャーエントリは、AnoLLMがターゲットとしているまさに混合型のデータです。金額（数値）、勘定科目名（構造化テキスト）、支払先/摘要（フリーテキスト）、タグ（カテゴリ）、日付（構造化データ）が含まれます。2024-03-15 * "AWS" "Cloud invoice" Assets:Checking -$2,400 という1つの行は、これらすべてのタイプにわたる情報を同時にエンコードしています。従来の異常検知器は、列のタイプごとに個別の処理を必要とし、それらの間の相関関係、つまり「AWSの請求書は特定の範囲内にあり、特定の勘定科目に計上されるべきである」という結合パターンを見失ってしまうため、ここで苦戦します。

AnoLLMのNLLアプローチは、原理的には、過去の正常なエントリからこれらの結合パターンを学習し、あらゆる列の組み合わせにわたる逸脱をフラグ立てすることができます。これは、ルールベースのJETsや単一列の統計テストよりも潜在的に有用です。

とはいえ、複式簿記の制約は、シリアル化された行だけではAnoLLMが学習できない構造的な知識です。借方と貸方は一致しなければならず、勘定科目の階層は尊重されなければなりません。これらのドメイン不変条件は統計的な規則性ではなくハードな制約であり、トレーニングデータに例外や端数処理の不備が含まれている場合、過去の行に対するLLMのファインチューニングをいくら行っても、それらを確実に強制することはできません。正しいアーキテクチャは、おそらくセマンティックな異常に対するAnoLLMのNLLスコアリングと、構造的な異常に対する明示的なルールチェックを組み合わせたものでしょう。

次に読むべきもの

CausalTAD (arXiv:2602.07798) — 因果関係に基づく列の順序付けを注入することで、AnoLLMを直接改善したもの。評価すべき最も直接的な続編です。
AD-LLM: Benchmarking Large Language Models for Anomaly Detection (arXiv:2412.11142, ACL Findings 2025) — 個別の手法の論文には欠けている、体系的なマルチパラダイム評価を提供します。
"Language Models are Realistic Tabular Data Generators" (Borisov et al., arXiv:2210.06280, ICLR 2023) — AnoLLMがベースラインとして使用しているBE-GREATモデル。これを理解することで、AnoLLMがインデックス予測以外に実際に何を改善したかが明確になります。

LLMによるBeancount DSL生成の正解率は2.3%：LLMFinLiteracyベンチマーク

Tue, 23 Jun 2026 00:00:00 GMT

これは、私がLOG-001以来待ち望んでいた論文です。自然言語の財務シナリオから、LLMが有効なBeancount DSLトランザクションを生成できるかどうかを直接的に実証テストしたものです。ベルリン応用科学大学のFigueroaらは、私の知る限り、プレーンテキスト会計における財務トランザクション生成に関するLLMの評価として、世界で初めて公開された論文を発表しました。簡潔な結論を言えば、LLMにはそれができません。少なくとも、思考の連鎖（Chain-of-thought）プロンプティングを用い、実際のBeancountの貸借対照表をコンテキストとして与えたとしても、確実に行うことはできません。

論文の内容

Figueroa、Grundmann、Freidank、Löser、Nejdlの各氏は、LLMFinLiteracyと呼ぶ2つのタスクからなるベンチマークで、5つの約7Bパラメータのオープンウェイトモデルを評価しました。タスク1では、DAX上場企業5社（Airbus、Bayer、Deutsche Telekom、Mercedes-Benz、SAP）の実際の中間貸借対照表を提示し、特定の流動性比率（流動比率、当座比率、または現金比率）に影響を与えるテキスト形式のシナリオを生成するようモデルに求めます。タスク2では、それらのシナリオをコンパイル可能なBeancountトランザクションに変換するよう求めます。Beancountコンパイラが構文チェックのグラウンドトゥルース（正解）として機能し、人間の専門家が意味的な正確性を評価しました。この論文では、2つのタスクにわたる12クラスのエラー分類法を導入し、複式簿記のルール、入出力例、およびBeancount形式の実際の企業貸借対照表を含む9ステップの思考の連鎖プロンプトを使用しています。評価対象となったモデル（Llama-3-8B、Qwen-2-7B、Mistral-7B、CodeLlama-7B、CodeQwen-1.5-7B）は、財務データの機密性を考慮し、すべてオンプレミスで実行されました。コーパスは合計1,500の生成サンプルで構成され、そのうち300のエントリが人間の専門家によって層別評価されました。

主な知見

評価された300のシナリオとトランザクションのペアのうち、エンドツーエンドで完全に正しかったのはわずか7つ（2.3%）でした。汎用モデル3つに絞っても、正解率は3.8%に留まります。
上位2つのモデルであるQwen-2-7BとMistral-7Bでさえ、正しいシナリオを生成できたのはそれぞれ21.67%と20.00%であり、コンパイル可能な正しいトランザクションを生成できたのはわずか16.67%と10.00%でした。
コード特化型モデル（CodeLlama、CodeQwen）の両タスクのスコアは0%でした。これらはプロンプトテンプレートに対し、タスクを完全に無視して「Processed — Waiting for next input（処理完了 — 次の入力を待機中）」という文字列をそのまま返しました。
構文はボトルネックではありません。構文エラーを出したモデルは一つもありませんでした。失敗の原因は完全に会計上の「推論」にあります。Qwen-2（61.67%）とLlama-3（38.33%）ではバランスエラー（貸借不一致）が支配的であり、Mistralは提供された貸借対照表に存在しない勘定科目を参照するエラー（45%）が目立ちました。
コンパイルに成功したトランザクションのかなりの割合が、意味的に間違っていました。モデルがよく使う「手口」は、負債の減少を「債務の売却」と呼び、現金は増えるものの、間違った理由で計上するというものでした。
自動判定者として使用されたGPT-4oは、提示された10個の無意味なシナリオすべてにおいて不整合を指摘できず、LLMによる自己評価が会計出力の信頼できるゲートキーパーにならないことが確認されました。
モデルは一般化するのではなく、プロンプト内の入出力例を大部分コピーする傾向にあります。正解した7つのペアは、提供された例題のトランザクション構造に酷似していました。

評価できる点と不十分な点

この論文の核心的な実証的貢献は堅実です。Beancountコンパイラを客観的で再現可能な正誤判定基準として使用し、おもちゃのようなデータではなく実際の企業の貸借対照表を使用したことで、現実世界での妥当性が高まっています。階層的なエラー分類法も思慮深く設計されており、最初のエラーで評価を停止することで、ゴミのような出力に対して「部分点」を与えて評価を水増しすることを避けています。

とはいえ、著者らも概ね認めている明らかな限界もあります。2023年から2024年にかけての5つの約7Bオープンウェイトモデルは、能力の全体像のわずかな一部に過ぎません。プライバシー上の理由からGPT-4oやClaudeが除外されたのは理解できますが、これは2.3%という見出しの数字が、最先端モデルの能力を過小評価している可能性があることを意味します。また、ドメイン知識をテストするために財務比率の計算式がプロンプトから意図的に外されました。これは手法としては興味深いですが、計算式のドキュメントを当然含めるであろう実用システムの結果とは比較できなくなります。さらに、5つのモデル、3つの比率、5つの企業にわたる300の人手評価サンプルという規模は控えめです。モデル別・比率別のセルは小さすぎて（12サンプル）、ばらつきについて強力な結論を導き出すには不十分です。

最も興味深い手法上の欠如は、反復的またはフィードバックベースのプロトコルが全くないことです。ツール呼び出しも、自己修正も、コンパイラによるフィードバックループもなく、一発（ワンショット）の生成のみが行われました。CRITIC（LOG-012）などの関連研究が、検証可能な出力を持つタスクにおいて、ツールとの対話的な洗練が精度を大幅に向上させることを示していることを考えると、Beancountコンパイラをループに組み込んだ実験の方が、導入の可能性について遥かに多くの情報をもたらしたはずです。

なぜこれが財務AIにとって重要なのか

Bean Labsのライトバック・エージェントに関するあらゆる設計決定は、LLMがBeancount DSLをどう扱えるかという仮定に基づいています。この論文は、そのための最初の実証的なアンカーとなります。主要な結果は厳しいものですが、有用な形で解釈することも可能です。

第一に、失敗のモードはランダムではなく特異的です。バランスエラーと未知の勘定科目は2つの支配的な問題であり、どちらもコンパイラ・イン・ザ・ループによるフィードバックループで対処可能です。Beancountコンパイラは、どの勘定科目が未知であるか、トランザクションの貸借が一致しているかを正確に教えてくれます。一度生成して終わりにするのではなく、コンパイラの出力に基づいて反復するエージェントアーキテクチャであれば、今回のワンショットの結果を大幅に上回るはずです。第二に、構文は「無料」で手に入ります。モデルは明らかにBeancountの表面的な文法を学習しています。単に、財務的な意図を正しい勘定科目の動きに確実に変換できないだけです。この区別は、プロンプティングやファインチューニングのどこに投資すべきかを判断する上で重要です。第三に、GPT-4oが会計の質を自動的に評価できないという発見は、自動検証システムのハードルを上げます。LLMによる批判ではなく、コンパイラと専門家によるスポットチェックが必要です。

また、この論文は、私が異常検知の研究（LOG-049）から疑っていたことを裏付けています。財務トランザクションを扱うLLMは、あまりにも安易にコンパイルして提出してしまいます。「Incorrect | Compiles（不正解だがコンパイル可能）」カテゴリー、つまり構文チェックは通るが意味的に間違っているトランザクションこそ、ライトバックの安全ガードレールが捉えなければならない失敗モードです。トランザクションの貸借が完全に一致していても、収益を負債の減少として記帳してしまうことがあり、これは純粋な構文チェックでは検出できません。

次に読むべきもの

AnoLLM: Large Language Models for Tabular Anomaly Detection (OpenReview:7VkHffT5X2, ICLR 2025) — バッチ検出アプローチの代替としての尤度ベースの異常スコアリング。Beancountコンパイラのシグナルと組み合わせて、構造的には有効だが統計的に異常なエントリをフラグ立てするのに適しています。
ReDAct: Uncertainty-Aware Deferral for LLM Agents (arXiv:2604.07036) — 信頼度の低い決定をより大きなモデルや人間にルーティングします。Beancountのライトバック・エージェントが、コンパイラフィードバックループの後に処理を進めるべきか、人間のレビューに委ねるべきかという問いに直接答えるものです。
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing (arXiv:2305.11738, ICLR 2024) — この論文で評価されたアーキテクチャの上に、コンパイラ・イン・ザ・ループの修正エージェントを構築するための最も関連性の高い既存研究です。

Beancount.io Blog

FinRAGBench-V：金融領域における視覚的引用を伴うマルチモーダルRAG

論文の概要​

主なポイント​

評価できる点と今後の課題​

なぜこれが金融AIにとって重要なのか​

次に読むべき資料​

LLMエージェントはCFOになれるのか？EnterpriseArenaによる132ヶ月のシミュレーションで明らかになった大きな格差

論文の概要​

主な知見​

評価できる点と課題​

なぜこれが金融AIにとって重要なのか​

次に読むべきもの​

WildToolBench: なぜ現実世界のツール利用においてLLMのセッション精度は15%を超えないのか

論文について​

主なアイデア​

何が妥当で、何がそうでないか​

なぜこれが金融AIにとって重要なのか​

次に読むべきもの​

LLMの信頼度とキャリブレーション：研究が実際に示していることの調査

論文の概要​

主要なアイデア​

何が有効で、何がそうでないか​

なぜこれが金融AIにとって重要なのか​

次に読むべきもの​

JSONSchemaBench: 現実世界のスキーマの複雑さがLLMの構造化出力の保証を破壊する

論文の概要​

主なアイデア​

評価できる点とそうでない点​

なぜこれが財務AIにとって重要なのか​

次に読むべきもの​

FinMCP-Bench: MCP下での実世界の金融ツール利用に向けたLLMエージェントのベンチマーク

論文の概要​

主なアイデア​

有効な点とそうでない点​

金融AIにとってなぜ重要なのか​

次に読むべきもの​

FinTrace：金融タスクにおけるLLMツール呼び出しのトラジェクトリレベル評価

論文の概要​

主要なポイント​

評価できる点と課題​

金融AIにとっての重要性​

次に読むべき資料​

FinToolBench：実世界の金融ツール活用におけるLLMエージェントの評価

論文の概要​

主要なアイデア​

評価できる点と不十分な点​

金融AIにとっての重要性​

次に読むべきもの​

OmniEval: 金融分野向け全方位型RAG評価ベンチマーク

論文について​

主なアイデア​

有効な点とそうでない点​

なぜこれが金融AIにとって重要なのか​

次に読むべきもの​

LLM異常検知サーベイ (NAACL 2025)：強力な分類体系、欠如した表形式データへの対応

論文の内容​

主なアイデア​

有効な点、そうでない点​

なぜこれが財務AIにとって重要なのか​

次に読むべきもの​

Found in the Middle: 位置的アテンションバイアスの校正によるロングコンテキストRAGの改善

論文の概要​

主要なアイデア​

評価できる点と懸念点​

なぜこれが金融AIにとって重要なのか​

次に読むべきもの​

LLMエージェントにおける不確実性を考慮したディフェラル：小規模モデルから大規模モデルへいつエスカレーションすべきか

論文の内容​

主要なアイデア​

妥当な点とそうでない点​

なぜこれが金融AIにとって重要なのか​

次に読むべきもの​

OpenHands：AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味すること

論文について​

主なアイデア​

維持されるもの、されないもの​

なぜこれが財務AIにとって重要なのか​

次に読むべきもの​

Fin-RATE：LLMは期間横断および企業横断の財務分析にいかに失敗するか

論文の概要

主なポイント

評価できる点と今後の課題

なぜこれが金融AIにとって重要なのか

次に読むべき資料

論文の概要

主な知見

評価できる点と課題

なぜこれが金融AIにとって重要なのか

次に読むべきもの

論文について

主なアイデア

何が妥当で、何がそうでないか

なぜこれが金融AIにとって重要なのか

次に読むべきもの

論文の概要

主要なアイデア

何が有効で、何がそうでないか

なぜこれが金融AIにとって重要なのか

次に読むべきもの

論文の概要

主なアイデア

評価できる点とそうでない点

なぜこれが財務AIにとって重要なのか

次に読むべきもの

論文の概要

主なアイデア

有効な点とそうでない点

金融AIにとってなぜ重要なのか

次に読むべきもの

論文の概要

主要なポイント

評価できる点と課題

金融AIにとっての重要性

次に読むべき資料

論文の概要

主要なアイデア

評価できる点と不十分な点

金融AIにとっての重要性

次に読むべきもの

論文について

主なアイデア

有効な点とそうでない点

なぜこれが金融AIにとって重要なのか

次に読むべきもの

論文の内容

主なアイデア

有効な点、そうでない点

なぜこれが財務AIにとって重要なのか

次に読むべきもの

論文の概要

主要なアイデア

評価できる点と懸念点

なぜこれが金融AIにとって重要なのか

次に読むべきもの

論文の内容

主要なアイデア

妥当な点とそうでない点

なぜこれが金融AIにとって重要なのか

次に読むべきもの

論文について

主なアイデア

維持されるもの、されないもの

なぜこれが財務AIにとって重要なのか

次に読むべきもの

論文の概要

主な洞察

評価できる点、懸念される点

なぜこれが財務AI（Finance AI）にとって重要なのか

次に読むべきもの

論文の概要

主なアイデア

何が正当で、何が不十分か

なぜこれが財務AIにとって重要なのか

次に読むべきもの

論文の概要

主なアイデア

妥当な点とそうでない点

なぜこれが金融AIにとって重要なのか

次に読むべきもの