跳转到主要内容
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

查看所有作者

FinQA:衡量 AI 对财务报告数值推理能力的基准测试
·mike

FinQA:衡量 AI 对财务报告数值推理能力的基准测试

FinQA (EMNLP 2021) 基于标准普尔 500 强企业的收益报告构建了 8,281 个问答对,这些问答需要多步算术程序。发布时,神经模型的得分为 61%,而人类专家为 91%;在三步及以上的程序中,准确率骤降至 22%。其失败模式——领域常数、跨模态锚定、推理链长度——直接对应了当今 Beancount 代理所面临的挑战。

ai
machine-learning
llm
finance
+2
FinanceBench:为什么基于向量存储的 RAG 在真实财务文档上表现不佳
·mike

FinanceBench:为什么基于向量存储的 RAG 在真实财务文档上表现不佳

FinanceBench 针对来自真实 SEC 备案文件的 10,231 个问题评估了 16 种 AI 配置;共享向量存储 RAG 的正确率仅为 19%,即使是拥有“金标准”段落的 GPT-4-Turbo,准确率也仅达到 85% —— 这表明数值推理而非检索才是企业财务 AI 的核心瓶颈。

ai
llm
machine-learning
financial-reporting
+3
DSPy:用编译后的 LLM 管道替换脆弱的提示工程
·mike

DSPy:用编译后的 LLM 管道替换脆弱的提示工程

DSPy 用声明式签名和指标驱动的编译器替换了手工编写的提示字符串——将 Llama2-13b 在 GSM8K 数学推理上的表现从 9.4% 提升到 46.9%,并为生产级金融 AI 管道提供了一条更具可维护性的路径。

ai
llm
machine-learning
automation
+2
LATS:语言智能体树搜索 —— 集推理、行动与规划于一体的框架
·mike

LATS:语言智能体树搜索 —— 集推理、行动与规划于一体的框架

LATS(语言智能体树搜索,ICML 2024)将 ReAct、思维树(Tree of Thoughts)和 Reflexion 统一到一个 MCTS 框架中,在 HumanEval 上配合 GPT-4 实现了 92.7% 的 pass@1。对于基于 Git 的 Beancount 账本,LATS 在生产环境中受限的状态回退要求可以被轻易满足。

ai
llm
machine-learning
automation
+3
Self-RAG: 大语言模型的自适应检索与自我评判
·mike

Self-RAG: 大语言模型的自适应检索与自我评判

Self-RAG (ICLR 2024 Oral) 训练语言模型决定何时进行检索,并使用四个反思令牌对其自身结果进行评分——在 PopQA 上达到 55.8%,在传记 FactScore 上达到 80.2,同时在五个基准测试中表现优于 ChatGPT。本文分析涵盖了其机制、消融实验结果、可复现性局限,以及对基于 Beancount 账本的金融 AI 智能体的启示。

ai
machine-learning
llm
technology
+3
Voyager:技能库作为终身学习 AI 智能体的基石
·mike

Voyager:技能库作为终身学习 AI 智能体的基石

Voyager 是由英伟达(NVIDIA)和加州理工学院开发的 GPT-4 驱动的 Minecraft 智能体。它证明了持久的代码技能库无需微调即可实现真正的终身学习——发现的项目比之前的最优技术多 3.3 倍。这种模式可以直接映射到长周期的 Beancount 账本自动化,尽管财务正确性需要游戏沙箱从未要求的暂存层。

ai
llm
machine-learning
automation
+3
HippoRAG:受神经生物学启发的 LLM 长期记忆机制
·mike

HippoRAG:受神经生物学启发的 LLM 长期记忆机制

HippoRAG (NeurIPS 2024) 通过 OpenIE 三元组构建知识图谱,并在查询时应用个性化 PageRank (PPR),在 2WikiMultiHopQA 数据集上的 Recall@5 达到 89.1%(对比 ColBERTv2 的 68.2%)——这对跨多年交易历史查询复杂财务账本具有直接意义。

llm
ai
machine-learning
beancount
+3
AgentBench:评估作为代理的 LLM —— 对金融 AI 可靠性的启示
·mike

AgentBench:评估作为代理的 LLM —— 对金融 AI 可靠性的启示

AgentBench(Liu 等人,ICLR 2024)在 8 个交互式环境中对 27 个大语言模型进行了基准测试 —— GPT-4 的综合得分为 4.01,而表现最好的开源模型仅为 0.96。三种主要的失败模式(知识图谱失败中 67.9% 为超出任务限制、数据库失败中 53.3% 为格式错误以及无效操作)直接对应了在真实账本上部署 Beancount 回写代理的风险。

ai
llm
machine-learning
automation
+3
BloombergGPT 与金融特定领域大语言模型的局限性
·mike

BloombergGPT 与金融特定领域大语言模型的局限性

彭博社在 5690 亿个金融数据 token 上训练了一个拥有 500 亿参数的大语言模型,并在情感分析和表格推理基准测试中击败了通用模型——然而 GPT-4 在没有任何金融特定预训练的情况下赶上了它。这项耗资 1000 万美元的实验揭示了领域预训练的权衡、数字的分词(tokenization)问题,以及为什么对于会计智能体来说,使用工具比依赖模型内部机制更可靠。

llm
ai
machine-learning
finance
+3
AutoGen:金融 AI 的多智能体对话框架
·mike

AutoGen:金融 AI 的多智能体对话框架

AutoGen(Wu 等,2023)引入了一个多智能体对话框架,其中由大语言模型(LLM)驱动的智能体通过传递消息来完成任务;双智能体设置将 MATH 基准测试的准确率从 55% 提升至 69%,而专门的 SafeGuard 智能体将不安全代码检测提高了多达 35 个 F1 分数——这些研究结果直接适用于构建安全、模块化的 Beancount 自动化流程。

ai
llm
automation
beancount
+3
Gorilla:检索感知训练如何将 LLM API 幻觉从 78% 降低到 11%
·mike

Gorilla:检索感知训练如何将 LLM API 幻觉从 78% 降低到 11%

Gorilla (Patil et al., NeurIPS 2024) 通过对检索到的 API 文档进行检索感知训练(Retriever-Aware Training),对 7B LLaMA 模型进行了微调,将幻觉率从 GPT-4 零样本下的 78% 降低到 11% —— 这对金融 AI 回写代理具有直接意义,因为错误的账户名称或正负号颠倒属于正确性故障,而不仅仅是干扰。

ai
llm
machine-learning
automation
+3
MemGPT:大语言模型智能体的虚拟上下文管理
·mike

MemGPT:大语言模型智能体的虚拟上下文管理

MemGPT 将操作系统风格的虚拟内存分页应用于大语言模型,使用三层存储——工作内存、召回存储和归档存储——为智能体提供跨会话的持久召回能力;在多会话聊天基准测试中,搭载 GPT-4 的 MemGPT 达到了 92.5% 的准确率,而固定上下文基准仅为 32.1%。

ai
llm
machine-learning
automation
+4
显示第 61–72 篇,共 87 篇