メインコンテンツまでスキップ
Analytics

全てについて Analytics

8つの記事
Data analytics techniques and metrics for financial AI systems

LLM異常検知サーベイ (NAACL 2025):強力な分類体系、欠如した表形式データへの対応

Xu氏とDing氏によるLLMベースの異常検知およびOOD検知に関するNAACL 2025サーベイの批判的読解。「検知 vs 生成」の分類体系は有効ですが、表形式データへの対応がほぼ皆無であるため、金融AIの実務家はビジョンモデルからの知見を自ら統合する必要があります。

Fin-RATE:LLMは期間横断および企業横断の財務分析にいかに失敗するか

Fin-RATEは、2,472件のSEC提出書類から専門家が厳選した7,500件のQAペアを用いて17のLLMをベンチマーク評価しました。その結果、経時的トラッキングにおいて18.60%の精度低下が明らかになり、財務特化型Fin-R1は企業横断タスクで54ポイント下落しました。また、モデル本体ではなく検索パイプラインがボトルネックとなっていることが示されました。

Lost in the Middle:LLMにおける位置バイアスと金融AIへの影響

LiuらによるTACL 2024の論文は、LLMが長いコンテキストの中央に埋もれた情報に対して最大20ポイント性能が低下することを示しています。これはClaude-1.3-100Kを含むすべてのテスト済みモデルに影響するU字型の劣化であり、金融・会計アプリケーションにおけるRAGパイプラインが取得したパッセージをどのように順序付けるべきかに具体的な示唆を与えています。

AD-LLMベンチマーク:GPT-4oがテキスト異常検知においてゼロショットで0.93以上のAUROCを達成

AD-LLMは、5つのNLPデータセットにおいて、ゼロショット検出器、データ拡張エンジン、モデル選択アドバイザーの3つの異常検知ロールにわたり、GPT-4oとLlama 3.1 8Bをベンチマークしました。GPT-4oはゼロショットでAUROC 0.93~0.99に達しましたが、LLMベースのモデル選択には依然として信頼性がなく、財務監査AIに直接的な影響を及ぼします。

τ-bench: 実世界のツール使用ドメインにおけるAIエージェントの信頼性の測定

τ-benchは、Claude 3.5 SonnetのようなトップクラスのLLMでも、小売カスタマーサービス業務においてpass@1の0.692からpass@4の0.462へと低下することを示しています。これは一貫性の急落(Consistency Cliff)を意味し、Beancount元帳を操作する書き戻しエージェントにとって直接的な影響を与えます。

ConvFinQA:マルチターンの財務QAとモデル・専門家間にある21ポイントの格差

ConvFinQA (EMNLP 2022)は、FinQAをS&P 500の決算報告書に関するマルチターン対話へと拡張しました。その結果、最高精度の微調整済みモデルの実行精度は68.9%(人間の専門家は89.4%)であり、異なる財務トピック間で数値的な文脈を維持する必要があるハイブリッド・マルチアスペクト対話では52.4%まで低下することが明らかになりました。

FinanceBench:ベクトルストアRAGが実際の財務書類で失敗する理由

FinanceBenchは、実際のSEC提出書類から抽出された10,231個の質問に対して16種類のAI構成を評価しました。共有ベクトルストアRAGの正解率はわずか19%であり、正解が含まれるパッセージを提示したGPT-4-Turboでさえ精度は85%にとどまりました。これは、エンタープライズ財務AIにとっての制約が検索ではなく数値推論であることを示しています。

自己整合性:多数決サンプリングによる思考の連鎖(Chain-of-Thought)精度の向上

自己整合性は、貪欲な思考の連鎖(CoT)デコードを、サンプリングされたN個の推論パスに基づく多数決に置き換えます。これにより、ファインチューニングなしでGSM8KにおけるGPT-3の精度を17.9ポイント向上させ、単一のLLMデコードが信頼できない多段階の財務計算に直接適用可能です。