「Fintech」タグの記事が4件件あります

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: MCP下での実世界の金融ツール利用に向けたLLMエージェントのベンチマーク

FinMCP-Benchは、65のMCPサーバーに裏打ちされた613の実世界金融ツール利用タスクにおいて、6つのLLMモデルを評価しました。最高モデルのマルチターンタスクにおける完全一致（exact match）スコアは3.08%であり、単一ツールからマルチターンシナリオへの移行に伴う20倍のパフォーマンス低下が明らかになりました。

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace：金融タスクにおけるLLMツール呼び出しのトラジェクトリレベル評価

FinTraceは、800件のエキスパートによるアノテーション済み金融タスクトラジェクトリを用いて13のLLMを9つの指標でベンチマーク評価しました。その結果、フロンティアモデルは強力なツール選択（F1 ~0.9）を実現しているものの、情報活用（エージェントがツールからの返却値を推論するステップ）においては5点満点中3.23点にとどまることが明らかになりました。

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench：実世界の金融ツール活用におけるLLMエージェントの評価

FinToolBenchは、760のライブ金融APIツールと295の実行可能なクエリを組み合わせ、実世界の金融タスクにおけるLLMエージェントのベンチマークを行います。GPT-4oは保守的な呼び出し率（TIR 22.7%）ながら高い回答品質（CSS 0.670）を示す一方、Qwen3-8Bは積極的（TIR 87.1%）ですが、全モデルで意図の不一致（intent mismatch）が50%を超えることが判明しました。

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT と金融におけるドメイン特化型 LLM の限界

Bloomberg は 5,690 億トークンの金融データで 500 億パラメータの LLM をトレーニングし、感情分析やテーブル推論のベンチマークで汎用モデルを上回りました。しかし、その後 GPT-4 が金融特化の事前学習なしでそれに匹敵する性能を示しました。この 1,000 万ドルの実験が明らかにしたドメイン事前学習のトレードオフ、数値のトークン化、そしてなぜ会計エージェントにとってツールの利用がモデル内部よりも信頼できるのかについて解説します。

全てについて Fintech

FinMCP-Bench: MCP下での実世界の金融ツール利用に向けたLLMエージェントのベンチマーク

FinTrace：金融タスクにおけるLLMツール呼び出しのトラジェクトリレベル評価

FinToolBench：実世界の金融ツール活用におけるLLMエージェントの評価

BloombergGPT と金融におけるドメイン特化型 LLM の限界

Beancount.ioを始める

はじめに

機能

コミュニティ

法務