IRCoT: Entrelazando la Recuperación con Cadena de Pensamiento para QA de Múltiples Pasos
He estado leyendo sobre variantes de RAG en las últimas entradas y quería entender IRCoT — el artículo de Trivedi, Balasubramanian, Khot y Sabharwal (ACL 2023) que entrelaza la recuperación con el razonamiento de cadena de pensamiento (CoT) en lugar de realizar una única pasada de recuperación inicial. FLARE abordó el mismo problema prediciendo cuándo recuperar; IRCoT adopta un enfoque mecánico más simple y plantea una pregunta más directa: ¿qué pasaría si cada frase de una cadena de razonamiento fuera en sí misma una consulta de recuperación?
El artículo
Los flujos actuales de "recuperar y luego leer" (retrieve-then-read) recuperan documentos una sola vez basándose en la pregunta original y luego entregan todo a un LLM. Para preguntas de un solo salto, esto suele ser suficiente. Para preguntas de múltiples pasos — "¿Quién fue el compositor de la película cuyo director nació en la misma ciudad que Bach?" — los documentos relevantes para el segundo paso solo son identificables después de haber respondido parcialmente al primer paso. Los autores llaman a esto el problema de dependencia del conocimiento y argumentan que la recuperación de un solo paso es estructuralmente incapaz de resolverlo.
IRCoT aborda esto con un bucle alterno: generar la siguiente frase de una cadena de razonamiento, usar esa frase como una consulta BM25 para recuperar párrafos adicionales, añadir los párrafos recuperados al contexto del prompt, generar la siguiente frase de razonamiento y repetir. El bucle se ejecuta hasta ocho pasos, limitando el contexto total a quince párrafos. No se requiere entrenamiento — el método se basa enteramente en prompting y se evalúa en modo zero-shot en GPT-3 (code-davinci-002) y en configuraciones few-shot en Flan-T5.
Ideas clave
- En HotpotQA, IRCoT mejora la recuperación (recall) en +11.3 puntos sobre la recuperación de un solo paso con GPT-3, y el F1 de QA derivado en +7.1 puntos (60.7 frente a 53.6).
- Las ganancias son mayores en conjuntos de datos más difíciles: +22.6 puntos de recuperación y +13.2 puntos de F1 en 2WikiMultihopQA con GPT-3.
- Flan-T5-XXL (11B) con IRCoT logra un +15.3 de F1 en 2WikiMultihopQA sobre la recuperación de un solo paso, que es la mayor ganancia por conjunto de datos en el artículo.
- Flan-T5-XL (3B) con IRCoT supera a GPT-3 (175B) con recuperación de un solo paso — una brecha de parámetros de 58 veces superada únicamente por la estrategia de recuperación.
- IRCoT reduce los errores fácticos en la CoT generada en un 50% en HotpotQA y en un 40% en 2WikiMultihopQA en relación con la recuperación de un solo paso (anotación manual de 40 preguntas por conjunto de datos).
- El método se generaliza fuera de distribución: el uso de demostraciones de un conjunto de datos para evaluar otro muestra ganancias similares, confirmando que el enfoque no se limita a ajustar patrones dentro de la distribución.
Qué se mantiene — y qué no
La afirmación central — que el razonamiento de múltiples pasos necesita una recuperación de múltiples pasos — es convincente y los experimentos son nítidos. El uso de cuatro benchmarks de saltos múltiples genuinamente difíciles con diferentes estructuras de conocimiento (puente, comparación, razonamiento discreto) fundamenta el caso de manera amplia. El estudio de ablación que muestra que un lector dedicado independiente (en lugar de la extracción de respuestas directamente desde la fase CoT) ayuda consistentemente es un hallazgo práctico útil.
Lo que encuentro menos satisfactorio: el presupuesto de recuperación es fijo en quince párrafos independientemente de la dificultad de la pregunta, y el criterio de parada es un límite rígido de pasos en lugar de una señal evaluada por el modelo de "tengo suficiente información". El disparo basado en la incertidumbre de FLARE es más basado en principios en ese sentido, aunque requiere probabilidades de tokens calibradas. La infraestructura BM25 de IRCoT es deliberadamente simple — la recuperación densa casi con seguridad mejoraría aún más los resultados, pero los autores no la prueban; argumentan que la simplicidad hace que la contribución de la cadena de razonamiento sea más clara, lo cual es justo. El coste computacional es real: cada frase generada activa una llamada de recuperación, por lo que la latencia escala linealmente con la profundidad del razonamiento. Trabajos recientes en 2025 (LevelRAG, GlobalRAG) informan que este flujo rígido de una-frase-una-recuperación limita el rendimiento en tareas que requieren recopilación de información en paralelo en lugar de un razonamiento secuencial en cadena, con GlobalRAG reportando una mejora de 6.54 puntos de F1 sobre IRCoT en su benchmark.
El análisis de alucinaciones también es más escaso de lo que me gustaría: 40 preguntas por conjunto de datos es una muestra demasiado pequeña para afirmaciones contundentes, y el "error fáctico" se anota a mano sin informar sobre el acuerdo entre anotadores.
Por qué esto importa para la IA en finanzas
El problema de dependencia que resuelve IRCoT se mapea directamente con la forma en que un agente de Beancount rastrea preguntas financieras de múltiples pasos. "¿Cuál fue el efecto neto de todas las transacciones que afectaron a la cuenta X entre las fechas Y y Z, después de contabilizar las conversiones de moneda anotadas en los campos de notas?" no puede responderse con una sola búsqueda de vectores — necesitas encontrar las transacciones coincidentes, luego recuperar los tipos de cambio referenciados y, potencialmente, recuperar las cuentas de contrapartida. Cada paso de recuperación depende de lo que se encontró en el anterior.
La lección de diseño práctico es el bucle recuperación-razonamiento: en lugar de meter un libro mayor completo de varios años en el contexto o realizar una única búsqueda semántica, un agente al estilo IRCoT usaría cada frase de razonamiento intermedia — "el débito total a gastos:comida en el Q1 fue de $1,240" — como consulta para el siguiente paso de recuperación. Eso mantiene la ventana de contexto ligera y la evidencia recuperada específica para el propósito. El hallazgo de que un modelo de 3B con una buena recuperación supera a un modelo de 175B con una recuperación deficiente es especialmente relevante dados los límites de coste al ejecutar agentes sobre libros contables personales o de pequeñas empresas. Acertar con la recuperación puede importar más que la escala del modelo.
La limitación que vale la pena tener en cuenta: la estructura rígida de una recuperación por frase de IRCoT tendrá dificultades con las consultas al libro mayor que requieren agregar información de muchas fuentes de evidencia paralelas simultáneamente — por ejemplo, computar una varianza presupuestaria a través de doce subcuentas de gastos a la vez. Ahí es donde un enfoque de planificación previa (como LATS o una descomposición de consultas estructurada) complementaría a IRCoT en lugar de competir con él.
Qué leer a continuación
- El propio artículo de IRCoT cita DecomP (Decomposed Prompting, Khot et al. 2022, arXiv:2210.06726) como una base clave — vale la pena leerlo para entender la estrategia alternativa de descomponer preguntas en subpreguntas antes de la recuperación en lugar de entrelazarlas.
- LevelRAG (arXiv:2502.18139) se basa en la recuperación iterativa al estilo IRCoT añadiendo un planificador de alto nivel que reescribe consultas en múltiples motores de búsqueda; una versión más reciente del mismo problema que aborda la rigidez de IRCoT.
- "Chain-of-Retrieval Augmented Generation" (CoRAG, arXiv:2501.14342) es un seguimiento de 2025 que enmarca la recuperación de múltiples pasos como una cadena, haciendo explícito el bucle IRCoT y añadiendo señales de entrenamiento — un sucesor natural para leer después de este artículo.
