跳到主要内容

Finance

关于一切 Finance

35 篇文章

Financial research, analysis, and domain knowledge for accounting AI

返回所有帖子查看所有标签

AILLMMachine LearningAutomationTechnologyPerformanceFinance

在等量思考 Token 预算下，单智能体大模型在多跳推理表现上优于多智能体系统

2026 年斯坦福大学的一篇预印本论文通过统一五种多智能体架构的思考 Token 预算发现，在多跳推理任务中，单智能体大模型表现与多智能体系统相当甚至更优。该研究基于数据处理不等式提供了理论依据，并探讨了其对金融 AI 智能体设计的启示。

AILLMMachine LearningAutomationFinanceData ScienceMulti-Agent

M3MAD-Bench：多智能体辩论在不同领域和模态下真的有效吗？

M3MAD-Bench 对 9 个模型、5 个领域以及视觉语言设置下的多智能体辩论进行了压力测试，发现“集体幻觉”导致了 65% 的失败，对抗性辩论使准确率下降了高达 12.8%，而自我一致性通常能以更低的 Token 成本达到与辩论相当的准确率。

AIMachine LearningLLMData ScienceBeancountFinanceAutomation

Atlas：检索器-阅读器联合预训练以 11B 参数击败 540B 参数的超大模型

Atlas (JMLR 2023) 在仅有 64 个训练样本的情况下，在 Natural Questions 上实现了 42.4% 的准确率——以 11B 参数击败了拥有 540B 参数的 PaLM 模型 3 个百分点。该模型通过联合预训练基于 Contriever 的稠密检索器和基于 T5 的 Fusion-in-Decoder 阅读器实现。本文分析涵盖了检索准确率限制、587GB 索引基础设施成本，以及对 Beancount 账本问答系统的影响。

AIMachine LearningForecastingData ScienceLLMFinanceBeancount

大语言模型（LLM）对时间序列预测并无用处：NeurIPS 2024 对金融 AI 意味着什么

一篇 NeurIPS 2024 Spotlight 论文对三种基于 LLM 的时间序列预测方法（OneFitsAll、Time-LLM 和 CALF）进行了消融实验，发现移除语言模型在大多数情况下能提高准确度，且训练速度最高可提升 1,383 倍。对于 Beancount 余额预测等金融 AI 应用，轻量级的专用模型表现始终优于改造成的 LLM。

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM：针对金融表格和文本离散推理进行微调的 LLaMA 2

TAT-LLM 通过 LoRA 在金融表格文本问答基准上对 LLaMA 2 7B 进行微调，在 FinQA 上实现了 64.60% 的精确匹配率（EM）——超过了 GPT-4 的 63.91% ——其原理是将推理分解为确定的“提取-推理-执行”步骤，从而消除了算术错误。

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT：将检索与思维链交织以实现多步问答

IRCoT 将 BM25 检索与思维链推理循环的每一步交织在一起，在 HotpotQA 数据集上相比单步 RAG 实现了 +11.3 的检索召回率和 +7.1 的 F1 分数提升，并证明了当检索策略正确时，3B 模型可以击败 GPT-3 175B。

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE：主动检索增强生成

FLARE (EMNLP 2023) 通过在生成过程中利用词元概率置信度阈值触发检索，在标准 RAG 基础上进行了改进。在 2WikiMultihopQA 任务中，它达到了 51.0 EM，而单次检索仅为 39.4。然而，指令微调聊天模型中的校准失效限制了其在生产级财务智能体中的可靠性。

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt：跨多层级财务报表的数值推理基准测试

MultiHiertt (ACL 2022) 引入了来自真实财务报告的 10,440 个问答对，每份报告平均包含 3.89 个层级表；最先进的模型 F1 分数为 38%，而人类为 87%，且跨表问题的得分下降了 15 个百分点——这量化了金融人工智能必须弥补的检索差距。

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA：多轮财务问答以及模型与人类专家之间 21 个百分点的差距

ConvFinQA (EMNLP 2022) 将 FinQA 扩展为基于标普 500 指数收益报告的多轮对话，研究发现性能最佳的微调模型实现了 68.9% 的执行准确率，而人类专家为 89.4%——在涉及模型必须跨不同财务主题承载数值上下文的混合多维对话中，准确率降至 52.4%。

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA：针对财务年报推理的混合表格-文本问答基准

TAT-QA 是一个包含 16,552 个问题的基准测试，涵盖了财务报表中混合表格与文本的语境。该研究证明证据定位（而非算术）是财务 AI 的核心瓶颈；到 2024 年，微调后的 7B 参数量 LLM 已达到 83% 的 F1 分数，基本缩小了与 91% 人类上限的差距。

开启 Beancount.io 之旅

使用我们的开源复式记账系统掌控你的财务。今天就开始你的账本。

免费开始使用查看定价

入门指南

功能特性

社区

法律合规

© 2019 - 2026 Beancount.io

在 App Store 下载

在 Google Play 获取

秉承透明理念 • 版本控制 • AI 驱动