LLM 在 Beancount DSL 生成中得分仅为 2.3%:LLMFinLiteracy 基准测试
LLMFinLiteracy 基准测试发现,五个约 7B 参数的权重开放模型生成完全正确的 Beancount 交易的成功率仅为 2.3%。失败原因集中在会计推理而 非语法上,这表明“编译器在环”反馈是构建可靠回写代理的关键缺失环节。
LLMFinLiteracy 基准测试发现,五个约 7B 参数的权重开放模型生成完全正确的 Beancount 交易的成功率仅为 2.3%。失败原因集中在会计推理而 非语法上,这表明“编译器在环”反馈是构建可靠回写代理的关键缺失环节。
AuditCopilot 将开源大语言模型(Mistral-8B、Gemma、Llama-3.1)应用于企业分录欺诈检测,将误报从 942 个削减至 12 个——但消融实验显示,LLM 主要作为孤立森林(Isolation Forest)得分之上的综合 层,而非独立的异常检测器。