「Finance」タグの記事が35件件あります

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V：金融領域における視覚的引用を伴うマルチモーダルRAG

FinRAGBench-V (EMNLP 2025) は、金融分野における視覚的引用を伴うマルチモーダルRAGのための初の大規模ベンチマークであり、11万2千ページ以上の文書と、人間がアノテーションした1,394組のQAペアを網羅しています。トップモデルでもブロックレベルの引用再現率はわずか20〜61%にとどまり、マルチモーダル検索はテキストのみの検索を約50パーセントポイント上回る結果となりました。

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

LLMの信頼度とキャリブレーション：研究が実際に示していることの調査

LLMの信頼度推定とキャリブレーション手法（ホワイトボックスのロジットアプローチ、一貫性ベースのSelfCheckGPT、意味論的エントロピー）に関する体系的な調査により、GPT-4による言語化された信頼度スコアはAUROC約62.7%にとどまり、偶然をわずかに上回る程度であることが明らかになりました。これは、金融や会計において不確実性を認識するエージェントを導入する上で直接的な影響を及ぼします。

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace：金融タスクにおけるLLMツール呼び出しのトラジェクトリレベル評価

FinTraceは、800件のエキスパートによるアノテーション済み金融タスクトラジェクトリを用いて13のLLMを9つの指標でベンチマーク評価しました。その結果、フロンティアモデルは強力なツール選択（F1 ~0.9）を実現しているものの、情報活用（エージェントがツールからの返却値を推論するステップ）においては5点満点中3.23点にとどまることが明らかになりました。

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: 金融分野向け全方位型RAG評価ベンチマーク

OmniEval (EMNLP 2025) は、11,400件の自動生成テストケースを用いて、5つのタスクタイプ × 16の金融トピックにわたるRAGシステムを評価します。最良のシステムでも数値の正確性は36%に留まっており、RAGパイプラインが構造化された金融帳簿に書き込む前に検証レイヤーを必要とすることを示す具体的な証拠となっています。

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: 実務のアナリストによるクエリが財務RAGにおける74%の再現率の乖離を露呈

FinDERは、S&P 500の10-K提出書類に対する5,703件の実際のヘッジファンドアナリストのクエリに基づいてRAGをベンチマークします。E5-Mistralのコンテキスト再現率はわずか25.95%にとどまり、略語の多いクエリでは適合率が8.2ポイント低下しました。これは、財務AIパイプラインにおいて、埋め込みの改善よりもクエリの正規化が優先的な解決策であることを示しています。

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Lost in the Middle：LLMにおける位置バイアスと金融AIへの影響

LiuらによるTACL 2024の論文は、LLMが長いコンテキストの中央に埋もれた情報に対して最大20ポイント性能が低下することを示しています。これはClaude-1.3-100Kを含むすべてのテスト済みモデルに影響するU字型の劣化であり、金融・会計アプリケーションにおけるRAGパイプラインが取得したパッセージをどのように順序付けるべきかに具体的な示唆を与えています。

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: 財務データにおけるテーブルデータの異常検知に向けたLLMのファインチューニング

AnoLLM（ICLR 2025）は、テーブルデータの異常検知をLLMの密度推定として再定義します。正常な行でファインチューニングを行い、負の対数尤度によってスコアリングします。混合型の不正データセットでは従来の手法を上回りますが、純粋な数値データでは優位性はなく、Beancountのレジャーエントリにおける異常検知に実用的な示唆を与えます。

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA：完全なSEC提出書類における長文コンテキストの財務推論

DocFinQAは、FinQAの精選された700語のパッセージを、123,000語に及ぶ完全なSEC提出書類に置き換え、コンテキストを175倍に拡大しました。これにより、長文ドキュメントにおけるGPT-4の精度はほぼ半減します。検索パイプラインはHR@3で45%の確率で正しいチャンクの抽出に失敗し、長文コンテキストモデルもその代用にはなりません。

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany：実世界の企業業務におけるLLMエージェントのベンチマーキング

TheAgentCompanyは、GitLab、OwnCloud、RocketChatを備えたシミュレートされたイントラネット上で175の実用的な業務タスクをテストします。最高モデル（Gemini-2.5-Pro）は1タスクあたり4ドルのコストでわずか30%の完了率にとどまり、自律型エージェントが会計や財務のワークフローにおいて依然として実用的ではないことを明らかにしています。

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: 金融取引の意思決定におけるLLMエージェントのベンチマーク評価

InvestorBench (ACL 2025)は、QAの正解率ではなく、累積収益率とシャープ・レシオを用いて、株式、仮想通貨、ETFのバックテスト取引において13種類のLLMバックボーンをテストしました。株式のリーダーボードではQwen2.5-72Bが累積収益率46.15%で首位に立ち、金融特化型モデルは株式において逆効果となる結果が出ました。モデルの規模は、ドメイン特化の微調整よりも信頼性の高いパフォーマンス予測因子となります。

全てについて Finance