4 篇博文含有标签「Fintech」

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench：MCP 架构下真实世界金融工具使用的大语言模型代理基准测试

FinMCP-Bench 在 65 个 MCP 服务器支持的 613 个真实世界金融工具使用任务上评估了六个大语言模型——表现最好的模型在多轮任务中的精确匹配率仅为 3.08%，揭示了从单工具到多轮场景下 20 倍的性能崩塌。

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace：针对金融任务的 LLM 工具调用轨迹级评估

FinTrace 在 9 个指标上对 13 个大语言模型（LLM）进行了评估，涵盖了 800 条专家标注的金融任务轨迹。研究发现，前沿模型在工具选择方面表现强劲（F1 ~0.9），但在信息利用率（即代理对工具返回结果进行推理的步骤）方面得分仅为 3.23/5。

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench：评估大语言模型智能体在真实金融工具使用中的表现

FinToolBench 将 760 个实时金融 API 工具与 295 个可执行查询相结合，在真实金融任务中对 LLM 智能体进行基准测试。研究发现，GPT-4o 保守的 22.7% 调用率带来的回答质量（CSS 0.670）高于 Qwen3-8B 激进的 87.1% 工具调用率（TIR），而所有测试模型的意图不匹配率均超过 50%。

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT 与金融特定领域大语言模型的局限性

彭博社在 5690 亿个金融数据 token 上训练了一个拥有 500 亿参数的大语言模型，并在情感分析和表格推理基准测试中击败了通用模型——然而 GPT-4 在没有任何金融特定预训练的情况下赶上了它。这项耗资 1000 万美元的实验揭示了领域预训练的权衡、数字的分词（tokenization）问题，以及为什么对于会计智能体来说，使用工具比依赖模型内部机制更可靠。

关于一切 Fintech

FinMCP-Bench：MCP 架构下真实世界金融工具使用的大语言模型代理基准测试

FinTrace：针对金融任务的 LLM 工具调用轨迹级评估

FinToolBench：评估大语言模型智能体在真实金融工具使用中的表现

BloombergGPT 与金融特定领域大语言模型的局限性

开启 Beancount.io 之旅

入门指南

功能特性

社区

法律合规