Ir al contenido principal

Fusion-in-Decoder: Cómo la recuperación de múltiples pasajes mejora el QA generativo

· 6 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La generación aumentada por recuperación (RAG) depende fundamentalmente de qué tan bien el generador puede sintetizar evidencia distribuida en múltiples documentos. El artículo de Izacard y Grave de la EACL 2021, "Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering", propone una solución arquitectónica engañosamente simple — codificar los pasajes de forma independiente y fusionarlos todos en el decodificador — que supera al marco RAG dominante en ese momento por un margen significativo. Lo estoy leyendo ahora porque el principio de diseño se traslada directamente al QA de libros mayores: antes de decidir cómo recuperar entradas en los agentes de Beancount, vale la pena entender qué estrategia de fusión funciona realmente.

El artículo

2026-05-26-fusion-in-decoder-passage-retrieval-generative-qa

El RAG original de Lewis et al. (arXiv:2005.11401) une un recuperador denso con un generador BART, pero obliga al generador a condicionarse a un solo pasaje recuperado a la vez, marginalizando sobre los pasajes ya sea por secuencia (RAG-Sequence) o por token (RAG-Token). Izacard y Grave identificaron esto como la restricción vinculante: un modelo que solo puede ver un pasaje a la vez no puede triangular fácilmente la evidencia que está dispersa en varios documentos.

Su solución FiD (Fusion-in-Decoder) es elegante. Cada pasaje recuperado se concatena con la pregunta y luego es codificado independientemente por el codificador de T5. El codificador se ejecuta una vez por pasaje, de forma totalmente paralelizable. El decodificador realiza entonces una atención cruzada (cross-attention) sobre la concatenación de todas las representaciones de los pasajes simultáneamente. La complejidad del codificador escala linealmente con el número de pasajes; el decodificador, fundamentalmente, puede atender a través de los límites de los pasajes durante cada paso de generación. El artículo utiliza T5-base y T5-large como núcleo del generador.

Ideas clave

  • FiD-large con 100 pasajes recuperados logra un 51.4% de coincidencia exacta (exact match) en Natural Questions y un 67.6% en TriviaQA open, en comparación con el 47.5% y 56.1% de RAG-Sequence respectivamente — ganancias de aproximadamente 4 y 11 puntos.
  • El rendimiento en Natural Questions escala monótonamente con el recuento de pasajes: 37.3% con 1 pasaje, 48.8% con 10, 50.8% con 50, 51.4% con 100. El retorno marginal disminuye pero nunca se invierte.
  • TriviaQA mejora un 6% y Natural Questions un 3.5% al escalar de 10 a 100 pasajes — evidencia de que el decodificador está agregando genuinamente, no solo eligiendo el mejor pasaje.
  • El paso de codificación es económico de paralelizar: cada par (pregunta, pasaje) se procesa de forma independiente, por lo que el tiempo de reloj escala sublinealmente con el hardware.
  • FiD-base con 770 millones de parámetros supera a T5-11B en modo "libro cerrado" (44.1% frente a 36.6% en NQ), demostrando que la recuperación permite que los modelos más pequeños compitan muy por encima de su categoría.

Qué se mantiene — y qué no

El resultado principal es sólido y ha sido replicado extensamente. La visión arquitectónica — codificación independiente, decodificación conjunta — es genuinamente limpia: evita la explosión cuadrática de la autoatención que resultaría de concatenar ingenuamente todos los pasajes antes del codificador, al tiempo que otorga al decodificador un contexto global sobre toda la evidencia recuperada.

La limitación que el artículo apenas reconoce es que la atención cruzada del decodificador es el cuello de botella en el momento de la inferencia. La atención cruzada debe cargar todos los pares clave-valor del codificador por capa del decodificador por cada paso de generación, y esos tensores clave-valor crecen linealmente con el recuento de pasajes. Un seguimiento de 2023, FiDO (arXiv:2212.08153), mostró que reemplazar la atención de múltiples cabezales por atención de consulta múltiple (multi-query attention) y podar las capas de atención cruzada produce una aceleración de la inferencia de 7x con una pérdida mínima de precisión — lo que implica que el decodificador FiD original está sustancialmente sobrediseñado para lo que requiere la tarea.

También existe una brecha de calibración que el artículo no explora: reporta la coincidencia exacta (exact match), que premia a los sistemas que por casualidad producen la cadena de respuesta canónica precisa. Para tareas de síntesis factual — resumir hallazgos a través de múltiples pasajes en lugar de extraer un fragmento — la coincidencia exacta subestima los errores y sobreestima la confianza. En entornos financieros, donde un número incorrecto en una oración por lo demás correcta es un fallo grave, la coincidencia exacta es métrica totalmente errónea.

Por qué esto importa para la IA en finanzas

El QA de libros mayores de Beancount es, por naturaleza, un problema de recuperación de múltiples pasajes. Una pregunta como "¿Cuánto gasté en viajes en el tercer trimestre en todas las cuentas?" requiere sintetizar docenas de entradas de transacciones de diferentes fechas, cuentas y tipos de commodities. El hallazgo principal de FiD — que los modelos generativos pueden agregar a través de muchos pasajes recuperados y que el rendimiento mejora con más contexto — es directamente alentador.

La implicación práctica para el diseño es concreta: al construir una capa de QA para Beancount, recuperar más entradas candidatas (50–100 en lugar de las 5 superiores habituales) y dar al generador acceso conjunto a todas ellas es probablemente mejor que confiar en el re-ranking para elegir una única respuesta correcta. La arquitectura FiD también se adapta limpiamente a la estructura del libro mayor: cada entrada de transacción puede codificarse de forma independiente (económico, paralelizable) antes de que el decodificador realice la síntesis de todas ellas.

La preocupación por el coste de inferencia es real para despliegues en producción, pero el seguimiento de FiDO muestra que es solucionable a nivel de arquitectura sin penalización en la precisión. La limitación más apremiante para los agentes financieros es que FiD está diseñado para QA de datos fácticos (factoid QA) con salidas generativas cortas. El análisis de libros mayores a menudo requiere aritmética de múltiples pasos — sumar cantidades, calcular ratios — y el generador de FiD no enruta intrínsecamente eso a un intérprete. Combinar la fusión al estilo FiD con un cabezal de generación de código estilo PAL es el siguiente paso natural para la precisión numérica.

Qué leer a continuación

  • FiDO (arXiv:2212.08153, ACL Findings 2023) — la atención de consulta múltiple y la poda de atención cruzada recuperan la precisión de FiD con una inferencia 7 veces más rápida; esencial antes de desplegar FiD en producción.
  • REALM: Retrieval-Augmented Language Model Pre-Training (arXiv:2002.08909, ICML 2020) — Guu et al. muestran cómo incorporar la recuperación durante el preentrenamiento en lugar de solo en la inferencia; proporciona la motivación previa sobre la que se construye FiD.
  • Atlas: Few-shot Learning with Retrieval Augmented Language Models (arXiv:2208.03299, JMLR 2023) — la propia extensión de Izacard et al. de FiD a entornos de aprendizaje con pocos ejemplos (few-shot) con entrenamiento conjunto de recuperador y lector, la síntesis más completa de esta línea de trabajo.