40 篇博文含有标签「Data Science」

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG：从局部到全局的查询导向摘要生成

微软的 GraphRAG 在文本语料库上构建了一个基于 Leiden 分区的实体图，并预先计算社区摘要，以回答标准向量 RAG 无法处理的全局理解问题——但 2025 年的一项偏差审计显示，在修正了 LLM 作为裁判评估中的位置和长度偏差后，其 72–83% 的胜率大幅下降。

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench：金融交易决策中的大语言模型智能体基准测试

InvestorBench (ACL 2025) 在股票、加密货币和 ETF 交易的回测中，通过累计回报率和夏普比率（而非问答准确率）对 13 个大语言模型骨干进行了测试。Qwen2.5-72B 以 46.15% 的累计回报率荣登股票榜首；针对金融微调的模型在股票表现上反而不如预期。模型参数量比领域微调更能可靠地预测性能。

AILLMMachine LearningAutomationFinanceData ScienceMulti-Agent

M3MAD-Bench：多智能体辩论在不同领域和模态下真的有效吗？

M3MAD-Bench 对 9 个模型、5 个领域以及视觉语言设置下的多智能体辩论进行了压力测试，发现“集体幻觉”导致了 65% 的失败，对抗性辩论使准确率下降了高达 12.8%，而自我一致性通常能以更低的 Token 成本达到与辩论相当的准确率。

AIMachine LearningLLMData ScienceBeancountFinanceAutomation

Atlas：检索器-阅读器联合预训练以 11B 参数击败 540B 参数的超大模型

Atlas (JMLR 2023) 在仅有 64 个训练样本的情况下，在 Natural Questions 上实现了 42.4% 的准确率——以 11B 参数击败了拥有 540B 参数的 PaLM 模型 3 个百分点。该模型通过联合预训练基于 Contriever 的稠密检索器和基于 T5 的 Fusion-in-Decoder 阅读器实现。本文分析涵盖了检索准确率限制、587GB 索引基础设施成本，以及对 Beancount 账本问答系统的影响。

AIMachine LearningLLMBeancountData SciencePlain-Text Accounting

Fusion-in-Decoder：多篇章检索如何提升生成式问答性能

Izacard 和 Grave 的 FiD 架构独立编码检索到的篇章，然后在解码器中进行融合，在 NQ 和 TriviaQA 数据集上比 RAG-Sequence 高出 4–11 分。本文探讨了该设计及其对 Beancount 账本问答的启示，在这类场景中，跨交易的多分录综合是常态。

AIMachine LearningForecastingData ScienceLLMFinanceBeancount

大语言模型（LLM）对时间序列预测并无用处：NeurIPS 2024 对金融 AI 意味着什么

一篇 NeurIPS 2024 Spotlight 论文对三种基于 LLM 的时间序列预测方法（OneFitsAll、Time-LLM 和 CALF）进行了消融实验，发现移除语言模型在大多数情况下能提高准确度，且训练速度最高可提升 1,383 倍。对于 Beancount 余额预测等金融 AI 应用，轻量级的专用模型表现始终优于改造成的 LLM。

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM：针对金融表格和文本离散推理进行微调的 LLaMA 2

TAT-LLM 通过 LoRA 在金融表格文本问答基准上对 LLaMA 2 7B 进行微调，在 FinQA 上实现了 64.60% 的精确匹配率（EM）——超过了 GPT-4 的 63.91% ——其原理是将推理分解为确定的“提取-推理-执行”步骤，从而消除了算术错误。

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

微调与 RAG：为什么检索在为 LLM 注入新知识方面胜出

对 7B 参数 LLM 进行的 RAG 与无监督微调的实证比较显示，RAG 在知识截止日期后的事实准确率达到了 0.875 以上，而微调则停滞在 0.504 —— 这对 Beancount 智能体设计及任何需要频繁更新知识的系统具有直接意义。

AIMachine LearningLLMData SciencePlain-Text AccountingBeancount

针对知识密集型 NLP 任务的检索增强生成

Lewis 等人在 NeurIPS 2020 发表的论文引入了混合 RAG 架构——由 BART-large 生成器和基于 2100 万个维基百科段落的 FAISS 索引检索器组成。该架构在 Natural Questions 上达到了 44.5 EM，并确立了参数化/非参数化分离的范式，这已成为当今大多数生产级人工智能系统的基础。本综述涵盖了 RAG-Sequence 与 RAG-Token 的权衡、检索崩溃故障模式，以及过时索引对于构建在仅追加 Beancount 账本之上的金融 AI 意味着什么。