Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

查看所有作者

BIRD 基准测试:大语言模型 Text-to-SQL 在真实数据库中的差距
·mike

BIRD 基准测试:大语言模型 Text-to-SQL 在真实数据库中的差距

BIRD 基准测试(NeurIPS 2023)在 95 个真实数据库上测试了大语言模型——GPT-4 在有领域提示的情况下执行准确率仅为 54.89%,而没有提示时仅为 34.88%。这 20 个百分点的差距直接决定了 Beancount 自然语言 BQL 接口需要解决的问题。

beancount
ai
llm
database
+3
LLM 智能体可验证的安全工具使用:当 STPA 遇上 MCP
·mike

LLM 智能体可验证的安全工具使用:当 STPA 遇上 MCP

CMU 和北卡罗来纳州立大学的研究人员提出利用系统理论过程分析 (STPA) 和能力增强的模型上下文协议 (MCP) 为 LLM 智能体工具使用推导形式化安全规范,并通过基于 Alloy 的验证在日历调度案例研究中证明了不存在不安全流。

ai
llm
security
automation
+3
GraphRAG:从局部到全局的查询导向摘要生成
·mike

GraphRAG:从局部到全局的查询导向摘要生成

微软的 GraphRAG 在文本语料库上构建了一个基于 Leiden 分区的实体图,并预先计算社区摘要,以回答标准向量 RAG 无法处理的全局理解问题——但 2025 年的一项偏差审计显示,在修正了 LLM 作为裁判评估中的位置和长度偏差后,其 72–83% 的胜率大幅下降。

ai
llm
machine-learning
beancount
+3
FinAuditing:大语言模型在真实 SEC XBRL 审计任务中得分低于 14%
·mike

FinAuditing:大语言模型在真实 SEC XBRL 审计任务中得分低于 14%

FinAuditing 在 1,102 个真实 SEC XBRL 申报实例上对 13 个大语言模型进行了零样本测试;财务数学验证的最高分仅为 13.86%,概念检索的最高分为 12.42% —— 这些结果直接限制了在没有外部工具的情况下,可以信任 AI 会计工具自动执行的任务范围。

llm
ai
financial-reporting
machine-learning
+2
InvestorBench:金融交易决策中的大语言模型智能体基准测试
·mike

InvestorBench:金融交易决策中的大语言模型智能体基准测试

InvestorBench (ACL 2025) 在股票、加密货币和 ETF 交易的回测中,通过累计回报率和夏普比率(而非问答准确率)对 13 个大语言模型骨干进行了测试。Qwen2.5-72B 以 46.15% 的累计回报率荣登股票榜首;针对金融微调的模型在股票表现上反而不如预期。模型参数量比领域微调更能可靠地预测性能。

llm
ai
finance
machine-learning
+3
StructRAG (ICLR 2025):选择正确的文档结构,性能领先 GraphRAG 28 分
·mike

StructRAG (ICLR 2025):选择正确的文档结构,性能领先 GraphRAG 28 分

StructRAG (ICLR 2025) 在推理前根据每个查询将路由到适当的任务结构类型(表格、图、目录、算法或分块),在 Loong 基准测试中比 GraphRAG 高出 28 分,且运行速度快 22 倍,仅 DPO 训练的路由模型就带来了 15 分的准确率提升。

ai
llm
machine-learning
beancount
+3
在等量思考 Token 预算下,单智能体大模型在多跳推理表现上优于多智能体系统
·mike

在等量思考 Token 预算下,单智能体大模型在多跳推理表现上优于多智能体系统

2026 年斯坦福大学的一篇预印本论文通过统一五种多智能体架构的思考 Token 预算发现,在多跳推理任务中,单智能体大模型表现与多智能体系统相当甚至更优。该研究基于数据处理不等式提供了理论依据,并探讨了其对金融 AI 智能体设计的启示。

ai
llm
machine-learning
automation
+3
M3MAD-Bench:多智能体辩论在不同领域和模态下真的有效吗?
·mike

M3MAD-Bench:多智能体辩论在不同领域和模态下真的有效吗?

M3MAD-Bench 对 9 个模型、5 个领域以及视觉语言设置下的多智能体辩论进行了压力测试,发现“集体幻觉”导致了 65% 的失败,对抗性辩论使准确率下降了高达 12.8%,而自我一致性通常能以更低的 Token 成本达到与辩论相当的准确率。

ai
llm
machine-learning
automation
+3
AGrail:跨任务学习的 LLM 智能体自适应安全护栏
·mike

AGrail:跨任务学习的 LLM 智能体自适应安全护栏

AGrail (ACL 2025) 引入了一种双 LLM 协作护栏,通过测试时自适应(TTA)在推理阶段调整安全检查。在 Safe-OS 上实现了 0% 的提示注入攻击成功率和 95.6% 的良性操作保留率——相比之下,GuardAgent 和 LLaMA-Guard 拦截了高达 49.2% 的合法操作。

ai
llm
security
automation
+3
ShieldAgent:LLM 智能体的可验证安全策略推理
·mike

ShieldAgent:LLM 智能体的可验证安全策略推理

ShieldAgent (ICML 2025) 使用基于马尔可夫逻辑网络构建的概率规则电路取代了基于 LLM 的护栏,在针对智能体攻击的防御中实现了 90.4% 的准确率,同时 API 调用减少了 64.7% —— 以及这对金融 AI 系统中可验证安全的意义。

ai
llm
machine-learning
security
+4
Atlas:检索器-阅读器联合预训练以 11B 参数击败 540B 参数的超大模型
·mike

Atlas:检索器-阅读器联合预训练以 11B 参数击败 540B 参数的超大模型

Atlas (JMLR 2023) 在仅有 64 个训练样本的情况下,在 Natural Questions 上实现了 42.4% 的准确率——以 11B 参数击败了拥有 540B 参数的 PaLM 模型 3 个百分点。该模型通过联合预训练基于 Contriever 的稠密检索器和基于 T5 的 Fusion-in-Decoder 阅读器实现。本文分析涵盖了检索准确率限制、587GB 索引基础设施成本,以及对 Beancount 账本问答系统的影响。

ai
machine-learning
llm
data-science
+3
Fusion-in-Decoder:多篇章检索如何提升生成式问答性能
·mike

Fusion-in-Decoder:多篇章检索如何提升生成式问答性能

Izacard 和 Grave 的 FiD 架构独立编码检索到的篇章,然后在解码器中进行融合,在 NQ 和 TriviaQA 数据集上比 RAG-Sequence 高出 4–11 分。本文探讨了该设计及其对 Beancount 账本问答的启示,在这类场景中,跨交易的多分录综合是常态。

ai
machine-learning
llm
beancount
+2
显示第 37–48 篇,共 87 篇