FLARE: Generación Aumentada por Recuperación Activa
La semana pasada estuve leyendo el artículo fundamental sobre RAG de Lewis et al.: recuperar una vez, anteponer el resultado, generar. Funciona, pero asume que sabes de antemano lo que vas a necesitar. FLARE (EMNLP 2023) ataca esa suposición directamente: ¿qué pasaría si el momento adecuado para recuperar fuera a mitad de la frase, justo cuando el modelo empieza a dudar? Vale la pena reflexionar detenidamente sobre esta cuestión para cualquier sistema —como un agente de Beancount— que necesite razonar sobre el historial de un libro mayor que no cabe en una única ventana de contexto.
El artículo
"Active Retrieval Augmented Generation" de Zhengbao Jiang, Frank F. Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan y Graham Neubig propone FLARE: Forward-Looking Active REtrieval augmented generation (Generación aumentada por recuperación activa con visión de futuro). El problema que resuelven es la alucinación durante la generación de textos largos, donde un modelo debe extraer múltiples piezas de conocimiento a lo largo de una salida extensa. El RAG estándar recupera una vez en el momento de la consulta y confía en que el pasaje recuperado cubra todo lo que la generación necesitará; esto es adecuado para respuestas cortas, pero frágil para respuestas de varios párrafos.
FLARE divide la generación en pasos a nivel de oración. En cada paso, genera una oración candidata para el siguiente fragmento. Si algún token en esa candidata tiene una probabilidad predicha inferior a un umbral θ, FLARE trata esos tramos de baja confianza como señales de recuperación, los utiliza (ya sea enmascarados o completados) para formar una consulta, recupera información de Wikipedia y regenera la oración con el contexto recuperado. El resultado es un sistema que recupera solo cuando y aproximadamente donde se siente inseguro, sin cargar de antemano contenido que nunca llegará a necesitar. Todos los experimentos se realizaron en GPT-3.5 (text-davinci-003) sin ningún ajuste fino.
Ideas clave
- La confianza como activador de recuperación: una probabilidad de token por debajo de θ indica que es probable que el modelo alucine; la recuperación se activa solo entonces, no por defecto. Los autores descubrieron que activar la recuperación para el 40–80 % de las oraciones suele funcionar mejor.
- Consultas con visión de futuro: en lugar de usar solo lo que ya se ha generado como consulta (el enfoque de "ventana previa"), FLARE utiliza la oración futura predicha —lo que el modelo cree que va a decir— como una consulta de recuperación mucho más dirigida.
- Dos variantes: FLARE-instruct enmascara los tokens de baja confianza y utiliza el tramo enmascarado como consulta; FLARE-direct utiliza la oración predicha completa. En 2WikiMultihopQA, la variante directa alcanza un 51.0 EM frente al 42.4 de la variante instruct.
- Las mejoras sobre la recuperación única son reales pero desiguales: en 2WikiMultihopQA, FLARE-direct alcanza un 51.0 EM frente a 39.4 para la recuperación única y 28.2 sin recuperación, una mejora decisiva. En ASQA la brecha es mucho menor (41.3 vs. 40.0), y en WikiAsp (UniEval 53.4 vs. 52.4) es casi un empate.
- Casos de fallo explícitos: los autores informan que FLARE no ofrece ninguna mejora en Wizard of Wikipedia y ELI5, donde las salidas cortas significan que la recuperación en varios pasos añade sobrecarga sin beneficios.
- Coste: debido a que la generación y la recuperación se entrelazan, cada ejemplo puede activar múltiples completados del modelo de lenguaje y llamadas de recuperación. El almacenamiento en caché no es sencillo.
Qué se mantiene y qué no
El encuadre con visión de futuro es la parte genuinamente ingeniosa. Utilizar el contenido predicho como consulta de recuperación es más informativo que el prefijo por sí solo, especialmente para tareas de múltiples saltos donde las conclusiones intermedias determinan qué dato necesitas a continuación. La brecha de 51.0 frente a 39.4 EM en 2WikiMultihopQA respalda esto.
Pero la señal de confianza de FLARE depende totalmente de qué tan bien esté calibrado el modelo. Las probabilidades de los tokens de un modelo de completado base como text-davinci-003 guardan una correlación razonable con la incertidumbre. No ocurre lo mismo con los modelos de chat ajustados por instrucciones o mediante RLHF, que a menudo pecan de exceso de confianza: emiten tokens de alta probabilidad incluso cuando están alucinando. Un seguimiento de 2024, Unified Active Retrieval (UAR, arXiv:2406.12534), evalúa FLARE en una suite de decisiones de recuperación más amplia y encuentra que solo logra un 56.50 % de precisión en diversos escenarios, en comparación con el 85.32 % del enfoque basado en clasificadores de UAR. El problema de la calibración no es un caso aislado; es la suposición central sobre la que descansa el método.
También hay una cuestión de granularidad de recuperación que el artículo no aborda por completo. La activación a nivel de oración es una heurística razonable, pero algunos hechos abarcan límites de cláusulas y otros se localizan en el nombre de una sola entidad. Una probabilidad baja en un token numérico (una cantidad de dinero, una fecha) probablemente debería activar la recuperación de manera diferente a una probabilidad baja en una palabra conectiva. El artículo trata todos los tokens de baja confianza de forma simétrica.
Finalmente, el bucle de "regenerar si hay incertidumbre" introduce latencia. Los autores lo reconocen pero no lo cuantifican frente a un presupuesto de latencia, algo que importa para aplicaciones interactivas o casi en tiempo real.
¿Por qué es importante para la IA financiera?
Un agente de Beancount que resume un libro mayor de varios años no puede recuperar todos los asientos históricos de antemano: el contexto se desbordaría y la mayor parte sería irrelevante para la respuesta en cuestión. El diseño de FLARE se adapta bien a este problema: genera un primer borrador del comentario de conciliación, detecta una baja confianza en el saldo acumulado de un proveedor específico, recupera solo las transacciones relevantes y luego regenera esa oración. El patrón es sólido.
Sin embargo, el problema de la calibración es una preocupación seria. Los agentes financieros de producción utilizan casi universalmente modelos de chat ajustados por instrucciones (GPT-4, Claude, Gemini), no modelos de completado base. Si estos modelos tienen un exceso de confianza —lo cual ocurre frecuentemente con afirmaciones numéricas— omitirán la recuperación justo cuando deberían activarla. Un agente de escritura de Beancount que alucina una fecha de transacción con alta confianza y nunca recupera datos para verificarla es peor que inútil.
La lección práctica es combinar la construcción de consultas con visión de futuro de FLARE con un activador de recuperación que no dependa únicamente de la probabilidad de los tokens. Los marcadores de incertidumbre explícitos (frases de cautela, números redondos, entidades con nombre que el modelo no ha visto recientemente) podrían complementar la señal de confianza. O bien, adoptar el enfoque de UAR: entrenar un clasificador ligero sobre los estados ocultos del modelo que sea más robusto a la mala calibración que los logits brutos.
Qué leer a continuación
- IRCoT: "Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions" (arXiv:2212.10509) — acopla la recuperación con pasos de cadena de pensamiento (CoT) en lugar de la confianza de los tokens; vale la pena compararlo directamente con FLARE en tareas de múltiples saltos.
- Unified Active Retrieval (UAR, arXiv:2406.12534) — el seguimiento directo que expone la brecha de calibración de FLARE y propone decisiones de recuperación basadas en clasificadores a través de cuatro escenarios de recuperación.
- "Adaptive Retrieval without Self-Knowledge? Bringing Uncertainty Back Home" (arXiv:2501.12835) — un artículo de 2025 que reexamina si los activadores basados en la probabilidad de tokens pueden rehabilitarse con mejores técnicas de calibración.
