FLARE:主动检索增强生成
FLARE (EMNLP 2023) 通过在生成过程中利用词元概率置信度阈值触发检索,在标准 RAG 基础上进行了改进。在 2WikiMultihopQA 任务中,它达到了 51.0 EM,而单次检索仅为 39.4。然而,指令微调聊天模型中的校准失效限制了其在生产级财务智能体中的可靠性。
FLARE (EMNLP 2023) 通过在生成过程中利用词元概率置信度阈值触发检索,在标准 RAG 基础上进行了改进。在 2WikiMultihopQA 任务中,它达到了 51.0 EM,而单次检索仅为 39.4。然而,指令微调聊天模型中的校准失效限制了其在生产级财务智能体中的可靠性。