「Reconciliation」タグの記事が10件件あります

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V：金融領域における視覚的引用を伴うマルチモーダルRAG

FinRAGBench-V (EMNLP 2025) は、金融分野における視覚的引用を伴うマルチモーダルRAGのための初の大規模ベンチマークであり、11万2千ページ以上の文書と、人間がアノテーションした1,394組のQAペアを網羅しています。トップモデルでもブロックレベルの引用再現率はわずか20〜61%にとどまり、マルチモーダル検索はテキストのみの検索を約50パーセントポイント上回る結果となりました。

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

LLMエージェントはCFOになれるのか？EnterpriseArenaによる132ヶ月のシミュレーションで明らかになった大きな格差

EnterpriseArenaは、11種類のLLMを用いて、生存率、最終評価額、決算率を追跡する132ヶ月間のCFOシミュレーションを実施しました。Qwen3.5-9Bのみが実行の80%で生存し、GPT-5.4とDeepSeek-V3.1は0%でした。人間の専門家は100%の生存率を達成し、最終評価額はLLMの5倍に達しました。決定的なボトルネックは、LLMが時間の80%で帳簿の照合をスキップし、古い財務状態に基づいて行動していることです。

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: MCP下での実世界の金融ツール利用に向けたLLMエージェントのベンチマーク

FinMCP-Benchは、65のMCPサーバーに裏打ちされた613の実世界金融ツール利用タスクにおいて、6つのLLMモデルを評価しました。最高モデルのマルチターンタスクにおける完全一致（exact match）スコアは3.08%であり、単一ツールからマルチターンシナリオへの移行に伴う20倍のパフォーマンス低下が明らかになりました。

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Found in the Middle: 位置的アテンションバイアスの校正によるロングコンテキストRAGの改善

学習不要な推論時の校正により、LLMのアテンションの重みから位置的バイアスを減算し、検索されたドキュメントがコンテキストの中央に埋もれている場合のRAG精度を最大15%回復。金融特化型エージェントパイプラインへの影響を解説。

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE：LLMは期間横断および企業横断の財務分析にいかに失敗するか

Fin-RATEは、2,472件のSEC提出書類から専門家が厳選した7,500件のQAペアを用いて17のLLMをベンチマーク評価しました。その結果、経時的トラッキングにおいて18.60%の精度低下が明らかになり、財務特化型Fin-R1は企業横断タスクで54ポイント下落しました。また、モデル本体ではなく検索パイプラインがボトルネックとなっていることが示されました。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager：生涯にわたるAIエージェント学習の基盤としてのスキルライブラリ

NVIDIAとカリフォルニア工科大学によるGPT-4駆動のMinecraftエージェント「Voyager」は、永続的なコードスキルライブラリによって、ファインチューニングなしで真の生涯学習が可能であることを実証し、従来の最先端技術よりも3.3倍多くのアイテムを発見しました。このパターンは長期的なBeancount元帳の自動化に直接応用できますが、財務的な正確性を期すためには、ゲームのサンドボックスには不要なステージングレイヤーが必要となります。

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: 金融AIのためのマルチエージェント対話フレームワーク

AutoGen (Wu et al., 2023) は、LLMベースのエージェントがメッセージをやり取りしてタスクを完了するマルチエージェント対話フレームワークを導入しました。2つのエージェント構成により、MATHベンチマークの精度が55%から69%に向上し、専用のSafeGuardエージェントによって安全でないコードの検出が最大35 F1ポイント改善されました。これらの知見は、安全でモジュール化されたBeancount自動化パイプラインの構築に直接応用可能です。

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: 実行可能なPythonコードがLLMエージェントの精度を20%向上させる理由

CodeAct (ICML 2024)は、JSON形式のツール呼び出しを実行可能なPythonコードに置き換えることで、マルチツール・タスクにおけるGPT-4エージェントの成功率を約20ポイント向上させ、対話ターン数を30%削減します。これは、信頼性の高いBeancount照合エージェントの構築に直接的な影響を与えます。

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC：なぜLLMの自己修正には外部ツールのフィードバックが必要なのか

CRITIC（ICLR 2024）は、LLMの修正を外部ツールの信号に基づかせることで、オープンドメインの質問応答で7.7のF1スコア向上、有害性を79.2%削減しました。この「検証してから修正する」ループは、Beancount金融エージェントの書き戻し安全性に直接応用できます。

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct：言語モデルにおける推論と行動の相乗効果

ReAct (Yao et al., ICLR 2023) は、Chain-of-Thought（思考の連鎖）推論とツールのアクションを単一の軌跡に統合し、事実検証において純粋な CoT を、具現化タスクの模倣学習において 34 ポイント上回る成果を上げました。この分析では、検索による混乱や累積誤差といった論文の失敗モードを、Beancount 元帳へ書き戻しを行う自律型エージェントにとっての意味合いを含めて解説します。

全てについて Reconciliation