Salta al contingut principal

Fusion-in-Decoder: Com la recuperació de múltiples fragments millora les preguntes i respostes generatives

· 6 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La generació augmentada per recuperació (RAG) depèn totalment de la capacitat del generador per sintetitzar evidències distribuïdes en diversos documents. L'article de l'EACL 2021 d'Izacard i Grave, "Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering", proposa una solució arquitectònica aparentment senzilla: codificar els fragments de manera independent i fusionar-los tots en el descodificador, la qual cosa supera significativament el marc RAG dominant fins aleshores. Ho estic llegint ara perquè el principi de disseny s'aplica directament a les consultes sobre llibres majors: abans de decidir com recuperar entrades en els agents de Beancount, val la pena entendre quina estratègia de fusió funciona realment.

L'article

2026-05-26-fusion-in-decoder-passage-retrieval-generative-qa

El RAG original de Lewis et al. (arXiv:2005.11401) combina un recuperador dens amb un generador BART, però obliga el generador a condicionar-se a un sol fragment recuperat alhora, marginalitzant els fragments per seqüència (RAG-Sequence) o per testimoni (RAG-Token). Izacard i Grave van identificar això com la restricció principal: un model que només pot veure un fragment alhora no pot triangular fàcilment evidències disperses en diversos documents.

La seva solució FiD (Fusion-in-Decoder) és elegant. Cada fragment recuperat es concatena amb la pregunta i, a continuació, es codifica independentment mitjançant el codificador de T5. El codificador s'executa una vegada per fragment (totalment paral·lelitzable). El descodificador realitza llavors una atenció creuada (cross-attention) sobre la concatenació de totes les representacions dels fragments simultàniament. La complexitat del codificador escala linealment amb el nombre de fragments; el descodificador, de manera crucial, pot atendre els límits entre fragments durant cada pas de generació. L'article utilitza T5-base i T5-large com a base del generador.

Idees clau

  • FiD-large amb 100 fragments recuperats assoleix un 51,4% de coincidència exacta (exact match) a Natural Questions i un 67,6% a TriviaQA obert, en comparació amb el 47,5% i el 56,1% de RAG-Sequence, respectivament (augments d'uns 4 i 11 punts).
  • El rendiment a Natural Questions escala de manera monotònica amb el recompte de fragments: 37,3% amb 1 fragment, 48,8% amb 10, 50,8% amb 50, 51,4% amb 100. El retorn marginal disminueix però mai s'inverteix.
  • TriviaQA millora un 6% i NaturalQuestions un 3,5% quan s'escala de 10 a 100 fragments, cosa que demostra que el descodificador realment està agregant informació, no només triant el fragment superior.
  • El pas de codificació és econòmic de paral·lelitzar: cada parella (pregunta, fragment) es processa de manera independent, per la qual cosa el temps d'execució real escala de manera sublineal amb el maquinari.
  • FiD-base amb 770 milions de paràmetres supera el T5-11B de llibre tancat (44,1% vs. 36,6% a NQ), demostrant que la recuperació permet que els models més petits tinguin un rendiment molt superior al que els correspondria pel seu pes.

Què es manté vigent — i què no

El resultat principal és sòlid i s'ha replicat extensament. La visió arquitectònica (codificació independent, descodificació conjunta) és realment neta: evita l'explosió quadràtica de l'atenció pròpia (self-attention) que resultaria de concatenar ingènuament tots els fragments abans del codificador, alhora que ofereix al descodificador un context global sobre tota l'evidència recuperada.

La limitació que l'article amb prou feines reconeix és que l'atenció creuada del descodificador és el coll d'ampolla en el moment de la inferència. L'atenció creuada ha de carregar tots els parells clau-valor del codificador per capa de descodificador i per pas de generació, i aquests tensors de clau-valor creixen linealment amb el recompte de fragments. Un seguiment de 2023, FiDO (arXiv:2212.08153), va mostrar que substituir l'atenció de múltiples capçals per atenció de múltiples consultes (multi-query attention) i podar les capes d'atenció creuada proporciona una acceleració de la inferència de 7 vegades amb una pèrdua mínima de precisió, cosa que implica que el descodificador FiD original està substancialment sobredissenyat per al que requereix la tasca.

També hi ha una bretxa de calibratge que l'article no explora: informa de la coincidència exacta, que premia els sistemes que casualment produeixen la cadena de resposta canònica precisa. Per a les tasques de síntesi de fets (resumir troballes en diversos fragments en lloc d'extreure'n un segment), la coincidència exacta subestima els errors i sobreestima la confiança. En entorns financers, on un número incorrecte en una frase que d'altra manera seria correcta és un error greu, la coincidència exacta és una mètrica totalment errònia.

Per què això és important per a la IA financera

Les consultes sobre el llibre major de Beancount són, per naturalesa, un problema de recuperació de múltiples fragments. Una pregunta com "Quant he gastat en viatges durant el tercer trimestre en tots els comptes?" requereix sintetitzar dotzenes d'entrades de transaccions de diferents dates, comptes i tipus d'actius. La troballa principal de FiD (que els models generatius poden agregar informació de molts fragments recuperats i que el rendiment millora amb més context) és directament encoratjadora.

L'implicació pràctica del disseny és concreta: quan es construeix una capa de consultes per a Beancount, recuperar més entrades candidates (50–100 en lloc de les 5 principals habituals) i donar al generador accés conjunt a totes elles és probablement millor que confiar en la reclassificació per triar una sola resposta correcta. L'arquitectura FiD també s'adapta netament a l'estructura del llibre major: cada entrada de transacció es pot codificar de manera independent (econòmic, paral·lelitzable) abans que el descodificador les sintetitzi totes.

La preocupació pel cost de la inferència és real per als desplegaments en producció, però el seguiment de FiDO demostra que es pot resoldre a nivell d'arquitectura sense penalització en la precisió. La limitació més urgent per als agents financers és que FiD està dissenyat per a consultes de fets amb sortides generatives curtes. L'anàlisi del llibre major sovint requereix aritmètica de diversos passos (sumar imports, calcular ràtios) i el generador de FiD no ho deriva inherentment a un intèrpret. Combinar la fusió a l'estil FiD amb un cap de generació de codi a l'estil PAL és el següent pas natural per a la precisió numèrica.

Què llegir a continuació

  • FiDO (arXiv:2212.08153, ACL Findings 2023) — l'atenció de múltiples consultes i la poda de l'atenció creuada recuperen la precisió de FiD amb una inferència 7 vegades més ràpida; essencial abans de desplegar FiD en producció.
  • REALM: Retrieval-Augmented Language Model Pre-Training (arXiv:2002.08909, ICML 2020) — Guu et al. mostren com incorporar la recuperació durant el preentrenament en lloc de només en la inferència; proporciona la motivació prèvia sobre la qual es basa FiD.
  • Atlas: Few-shot Learning with Retrieval Augmented Language Models (arXiv:2208.03299, JMLR 2023) — l'extensió pròpia d'Izacard et al. de FiD a entorns de pocs exemples (few-shot) amb entrenament conjunt de recuperador i lector, la síntesi més completa d'aquesta línia de treball.