跳到主要内容

Analytics

关于一切 Analytics

8 篇文章

Data analytics techniques and metrics for financial AI systems

返回所有帖子查看所有标签

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

LLM 异常检测综述 (NAACL 2025)：强大的分类体系，缺失的表格数据覆盖

对 Xu 和 Ding 在 NAACL 2025 上发表的关于基于 LLM 的异常和 OOD 检测综述的评注：虽然检测与生成的分类体系站得住脚，但表格数据覆盖的几乎完全缺失意味着金融 AI 从业者必须自行综合来自视觉模型的见解。

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE：大语言模型在跨周期和跨实体财务分析中的失败表现

Fin-RATE 对 17 个大语言模型进行了基准测试，涵盖了来自 2,472 份 SEC 文件的 7,500 对专家精选的问答。研究揭示了在纵向追踪下准确率暴跌 18.60%，而金融专业模型 Fin-R1 在跨实体任务中的表现下降了 54 点——检索流程而非骨干模型才是核心瓶颈。

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

迷失在中间：大语言模型中的位置偏差及其对金融 AI 的影响

Liu 等人发表的 TACL 2024 论文表明，大语言模型在处理埋藏在长上下文中间的信息时，性能会下降多达 20 个百分点——这种 U 形性能退化影响了包括 Claude-1.3-100K 在内的所有受测模型——这对 RAG 流水线在金融和会计应用中应如何排列检索到的段落具有具体的指导意义。

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

AD-LLM 基准测试：GPT-4o 在文本异常检测中零样本 AUROC 达到 0.93+

AD-LLM 在五个 NLP 数据集上针对三种异常检测角色（零样本检测器、数据增强引擎和模型选择顾问）对 GPT-4o 和 Llama 3.1 8B 进行了基准测试；GPT-4o 的零样本 AUROC 达到了 0.93–0.99，但基于 LLM 的模型选择仍然不可靠，这对金融审计 AI 具有直接影响。

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench：评估 AI 代理在现实世界工具调用领域的可靠性

τ-bench 表明，像 Claude 3.5 Sonnet 这样的顶级大语言模型在零售客户服务任务中，其 pass@1 分数从 0.692 下降到 pass@4 的 0.462 —— 这种一致性断崖直接影响到任何在 Beancount 账本上运行的回写代理。

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA：多轮财务问答以及模型与人类专家之间 21 个百分点的差距

ConvFinQA (EMNLP 2022) 将 FinQA 扩展为基于标普 500 指数收益报告的多轮对话，研究发现性能最佳的微调模型实现了 68.9% 的执行准确率，而人类专家为 89.4%——在涉及模型必须跨不同财务主题承载数值上下文的混合多维对话中，准确率降至 52.4%。

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench：为什么基于向量存储的 RAG 在真实财务文档上表现不佳

FinanceBench 针对来自真实 SEC 备案文件的 10,231 个问题评估了 16 种 AI 配置；共享向量存储 RAG 的正确率仅为 19%，即使是拥有“金标准”段落的 GPT-4-Turbo，准确率也仅达到 85% —— 这表明数值推理而非检索才是企业财务 AI 的核心瓶颈。

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

自一致性：多数投票采样提升思维链准确率

自一致性通过对 N 条采样推理路径进行多数投票，取代了贪婪的思维链解码——在零微调的情况下将 GPT-3 在 GSM8K 上的准确率提高了 17.9 个百分点——并直接适用于单次大模型解码不可靠的多步金融计算。

开启 Beancount.io 之旅

使用我们的开源复式记账系统掌控你的财务。今天就开始你的账本。

免费开始使用查看定价

入门指南

功能特性

社区

法律合规

© 2019 - 2026 Beancount.io

在 App Store 下载

在 Google Play 获取

秉承透明理念 • 版本控制 • AI 驱动