跳到主要内容
Machine Learning

关于一切 Machine Learning

85 篇文章
Machine learning techniques for financial data analysis and automation

Self-RAG: 大语言模型的自适应检索与自我评判

Self-RAG (ICLR 2024 Oral) 训练语言模型决定何时进行检索,并使用四个反思令牌对其自身结果进行评分——在 PopQA 上达到 55.8%,在传记 FactScore 上达到 80.2,同时在五个基准测试中表现优于 ChatGPT。本文分析涵盖了其机制、消融实验结果、可复现性局限,以及对基于 Beancount 账本的金融 AI 智能体的启示。

Voyager:技能库作为终身学习 AI 智能体的基石

Voyager 是由英伟达(NVIDIA)和加州理工学院开发的 GPT-4 驱动的 Minecraft 智能体。它证明了持久的代码技能库无需微调即可实现真正的终身学习——发现的项目比之前的最优技术多 3.3 倍。这种模式可以直接映射到长周期的 Beancount 账本自动化,尽管财务正确性需要游戏沙箱从未要求的暂存层。

AgentBench:评估作为代理的 LLM —— 对金融 AI 可靠性的启示

AgentBench(Liu 等人,ICLR 2024)在 8 个交互式环境中对 27 个大语言模型进行了基准测试 —— GPT-4 的综合得分为 4.01,而表现最好的开源模型仅为 0.96。三种主要的失败模式(知识图谱失败中 67.9% 为超出任务限制、数据库失败中 53.3% 为格式错误以及无效操作)直接对应了在真实账本上部署 Beancount 回写代理的风险。

BloombergGPT 与金融特定领域大语言模型的局限性

彭博社在 5690 亿个金融数据 token 上训练了一个拥有 500 亿参数的大语言模型,并在情感分析和表格推理基准测试中击败了通用模型——然而 GPT-4 在没有任何金融特定预训练的情况下赶上了它。这项耗资 1000 万美元的实验揭示了领域预训练的权衡、数字的分词(tokenization)问题,以及为什么对于会计智能体来说,使用工具比依赖模型内部机制更可靠。

Gorilla:检索感知训练如何将 LLM API 幻觉从 78% 降低到 11%

Gorilla (Patil et al., NeurIPS 2024) 通过对检索到的 API 文档进行检索感知训练(Retriever-Aware Training),对 7B LLaMA 模型进行了微调,将幻觉率从 GPT-4 零样本下的 78% 降低到 11% —— 这对金融 AI 回写代理具有直接意义,因为错误的账户名称或正负号颠倒属于正确性故障,而不仅仅是干扰。