「Automation」タグの記事が57件件あります

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

LLMエージェントはCFOになれるのか？EnterpriseArenaによる132ヶ月のシミュレーションで明らかになった大きな格差

EnterpriseArenaは、11種類のLLMを用いて、生存率、最終評価額、決算率を追跡する132ヶ月間のCFOシミュレーションを実施しました。Qwen3.5-9Bのみが実行の80%で生存し、GPT-5.4とDeepSeek-V3.1は0%でした。人間の専門家は100%の生存率を達成し、最終評価額はLLMの5倍に達しました。決定的なボトルネックは、LLMが時間の80%で帳簿の照合をスキップし、古い財務状態に基づいて行動していることです。

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: なぜ現実世界のツール利用においてLLMのセッション精度は15%を超えないのか

WildToolBench (ICLR 2026) は、実際のユーザー行動から抽出された1,024のタスクで57のLLMを評価しました。15%のセッション精度を超えるモデルは存在せず、構成的オーケストレーション、隠れた意図、および指示の遷移が3つの顕著な失敗モードとして特定されました。

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: 現実世界のスキーマの複雑さがLLMの構造化出力の保証を破壊する

JSONSchemaBenchは、9,558個の現実世界のJSONスキーマを6つの制約付きデコードフレームワークに対してテストし、スキーマの複雑さによってカバレッジが単純なスキーマでの86%から複雑なものでは3%にまで崩壊することを発見しました。XGrammarは38個の非準拠出力をサイレントに生成し、すべての45のJSONスキーマ機能カテゴリをカバーするフレームワークは存在しませんでした。

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: MCP下での実世界の金融ツール利用に向けたLLMエージェントのベンチマーク

FinMCP-Benchは、65のMCPサーバーに裏打ちされた613の実世界金融ツール利用タスクにおいて、6つのLLMモデルを評価しました。最高モデルのマルチターンタスクにおける完全一致（exact match）スコアは3.08%であり、単一ツールからマルチターンシナリオへの移行に伴う20倍のパフォーマンス低下が明らかになりました。

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace：金融タスクにおけるLLMツール呼び出しのトラジェクトリレベル評価

FinTraceは、800件のエキスパートによるアノテーション済み金融タスクトラジェクトリを用いて13のLLMを9つの指標でベンチマーク評価しました。その結果、フロンティアモデルは強力なツール選択（F1 ~0.9）を実現しているものの、情報活用（エージェントがツールからの返却値を推論するステップ）においては5点満点中3.23点にとどまることが明らかになりました。

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench：実世界の金融ツール活用におけるLLMエージェントの評価

FinToolBenchは、760のライブ金融APIツールと295の実行可能なクエリを組み合わせ、実世界の金融タスクにおけるLLMエージェントのベンチマークを行います。GPT-4oは保守的な呼び出し率（TIR 22.7%）ながら高い回答品質（CSS 0.670）を示す一方、Qwen3-8Bは積極的（TIR 87.1%）ですが、全モデルで意図の不一致（intent mismatch）が50%を超えることが判明しました。

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: 金融分野向け全方位型RAG評価ベンチマーク

OmniEval (EMNLP 2025) は、11,400件の自動生成テストケースを用いて、5つのタスクタイプ × 16の金融トピックにわたるRAGシステムを評価します。最良のシステムでも数値の正確性は36%に留まっており、RAGパイプラインが構造化された金融帳簿に書き込む前に検証レイヤーを必要とすることを示す具体的な証拠となっています。

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Found in the Middle: 位置的アテンションバイアスの校正によるロングコンテキストRAGの改善

学習不要な推論時の校正により、LLMのアテンションの重みから位置的バイアスを減算し、検索されたドキュメントがコンテキストの中央に埋もれている場合のRAG精度を最大15%回復。金融特化型エージェントパイプラインへの影響を解説。

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

LLMエージェントにおける不確実性を考慮したディフェラル：小規模モデルから大規模モデルへいつエスカレーションすべきか

ReDActは、デフォルトで小規模モデルを実行し、トークンレベルのパープレキシティが不確実性を示した場合にのみ高価なモデルへとエスカレーションします。これにより、GPT-5.2単体と比較して、精度を維持または向上させつつ64%のコスト削減を実現します。これはBeancountの取引分類エージェントに直接応用可能なパターンです。

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands：AIソフトウェアエージェントのためのオープンプラットフォームと、それが財務自動化に意味すること

OpenHandsはMITライセンスのDockerサンドボックス化されたエージェントプラットフォームです。CodeActはSWE-Bench Liteで26%を達成しました。これは今日のAIエージェントが確実に実行できることを確立する冷静なベンチマークであり、最初の実用的な財務デプロイメントが自律型ではなく、範囲を厳密に限定すべき理由を示しています。

全てについて Automation