Fusion-in-Decoder : Comment la recherche multi-passages améliore l'AQ générative
La génération augmentée par récupération (RAG) dépend entièrement de la capacité du générateur à synthétiser des preuves réparties sur plusieurs documents. L'article d'Izacard et Grave de l'EACL 2021, "Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering", propose une correction architecturale d'une simplicité trompeuse — encoder les passages indépendamment, les fusionner tous dans le décodeur — qui surpasse de manière significative le cadre RAG alors dominant. Je le lis maintenant car le principe de conception correspond directement à l'AQ (Assurance Qualité / Questions-Réponses) des grands livres : avant de décider comment récupérer des écritures dans les agents Beancount, il vaut la peine de comprendre quelle stratégie de fusion fonctionne réellement.
L'article
Le RAG original de Lewis et al. (arXiv:2005.11401) marie un récupérateur dense avec un générateur BART, mais force le générateur à se conditionner sur un seul passage récupéré à la fois, en marginalisant les passages soit par séquence (RAG-Sequence), soit par jeton (RAG-Token). Izacard et Grave ont identifié cela comme la contrainte limitante : un modèle qui ne peut voir qu'un passage à la fois ne peut pas facilement trianguler des preuves dispersées dans plusieurs documents.
Leur solution FiD (Fusion-in-Decoder) est élégante. Chaque passage récupéré est concaténé avec la question, puis encodé indépendamment par l'encodeur de T5. L'encodeur s'exécute une fois par passage — ce qui est entièrement parallélisable. Le décodeur effectue ensuite une attention croisée sur la concaténation de toutes les représentations de passages simultanément. La complexité de l'encodeur croît linéairement avec le nombre de passages ; le décodeur, de manière cruciale, peut porter son attention sur les frontières des passages à chaque étape de génération. L'article utilise T5-base et T5-large comme squelette du générateur.
Idées clés
- FiD-large avec 100 passages récupérés atteint 51,4 % de correspondance exacte (EM) sur Natural Questions et 67,6 % sur TriviaQA open, contre 47,5 % et 56,1 % respectivement pour RAG-Sequence — soit des gains d'environ 4 et 11 points.
- Les performances sur Natural Questions augmentent de manière monotone avec le nombre de passages : 37,3 % pour 1 passage, 48,8 % pour 10, 50,8 % pour 50, 51,4 % pour 100. Le rendement marginal diminue mais ne s'inverse jamais.
- TriviaQA s'améliore de 6 % et Natural Questions de 3,5 % en passant de 10 à 100 passages — preuve que le décodeur agrège réellement les informations et ne se contente pas de choisir le meilleur passage.
- L'étape d'encodage est peu coûteuse à paralléliser : chaque paire (question, passage) est traitée indépendamment, de sorte que le temps de traitement réel croît de manière sous-linéaire avec le matériel.
- FiD-base avec 770 millions de paramètres surpasse T5-11B en mode "closed-book" (44,1 % contre 36,6 % sur NQ), démontrant que la récupération permet à des modèles plus petits de rivaliser avec des modèles bien plus massifs.
Ce qui tient la route — et ce qui ne tient pas
Le résultat principal est robuste et a été largement reproduit. L'intuition architecturale — encodage indépendant, décodage conjoint — est véritablement propre : elle évite l'explosion quadratique de l'auto-attention qui résulterait d'une concaténation naïve de tous les passages avant l'encodeur, tout en donnant au décodeur un contexte global sur toutes les preuves récupérées.
La limite que l'article reconnaît à peine est que l'attention croisée du décodeur constitue le goulot d'étranglement au moment de l'inférence. L'attention croisée doit charger toutes les paires clé-valeur de l'encodeur par couche de décodeur et par étape de génération, et ces tenseurs clé-valeur croissent linéairement avec le nombre de passages. Un suivi de 2023, FiDO (arXiv:2212.08153), a montré que le remplacement de l'attention multi-têtes par l'attention multi-requêtes et l'élagage des couches d'attention croisée permettent d'accélérer l'inférence par 7 avec une perte de précision minimale — ce qui implique que le décodeur FiD original est substantiellement sur-conçu pour les besoins de la tâche.
Il existe également un écart de calibrage que l'article n'explore pas : il rapporte la correspondance exacte (exact match), qui récompense les systèmes produisant précisément la chaîne de réponse canonique. Pour les tâches de synthèse factuelle — résumer des conclusions sur plusieurs passages plutôt que d'extraire un segment — la correspondance exacte sous-estime les erreurs et surestime la confiance. Dans les contextes financiers, où un chiffre erroné dans une phrase par ailleurs correcte est un échec grave, la correspondance exacte n'est pas du tout la bonne mesure.
Pourquoi c'est important pour l'IA financière
L'AQ des grands livres Beancount est, par nature, un problème de recherche multi-passages. Une question comme "Combien ai-je dépensé en voyages au troisième trimestre sur tous mes comptes ?" nécessite de synthétiser des dizaines d'écritures de transaction provenant de dates, de comptes et de types de commodités différents. La conclusion centrale de FiD — que les modèles génératifs peuvent agréger des informations sur de nombreux passages récupérés et que les performances s'améliorent avec plus de contexte — est directement encourageante.
L'implication pratique pour la conception est concrète : lors de la création d'une couche d'AQ Beancount, récupérer davantage d'écritures candidates (50 à 100 plutôt que les 5 meilleures habituelles) et donner au générateur un accès conjoint à toutes ces écritures est probablement préférable à l'utilisation d'un re-classement pour choisir une seule "bonne" réponse. L'architecture FiD s'adapte également bien à la structure des grands livres : chaque écriture de transaction peut être encodée indépendamment (peu coûteux, parallélisable) avant que le décodeur ne fasse la synthèse de l'ensemble.
Le coût d'inférence est une préoccupation réelle pour les déploiements en production, mais l'étude FiDO montre que ce problème peut être résolu au niveau de l'architecture sans pénalité de précision. La limite la plus pressante pour les agents financiers est que FiD est conçu pour l'AQ de faits avec des sorties génératives courtes. L'analyse de grand livre nécessite souvent une arithmétique en plusieurs étapes — additionner des montants, calculer des ratios — et le générateur de FiD n'oriente pas intrinsèquement cela vers un interpréteur. Combiner la fusion de style FiD avec une tête de génération de code de style PAL est l'étape suivante naturelle pour la précision numérique.
Ce qu'il faut lire ensuite
- FiDO (arXiv:2212.08153, ACL Findings 2023) — l'attention multi-requêtes et l'élagage de l'attention croisée retrouvent la précision de FiD avec une inférence 7 fois plus rapide ; essentiel avant de déployer FiD en production.
- REALM: Retrieval-Augmented Language Model Pre-Training (arXiv:2002.08909, ICML 2020) — Guu et al. montrent comment incorporer la récupération pendant le pré-entraînement plutôt qu'au moment de l'inférence seulement ; fournit la motivation en amont sur laquelle FiD s'appuie.
- Atlas: Few-shot Learning with Retrieval Augmented Language Models (arXiv:2208.03299, JMLR 2023) — l'extension propre d'Izacard et al. de FiD aux paramètres d'apprentissage par petits exemples (few-shot) avec un entraînement conjoint du récupérateur et du lecteur, la synthèse la plus complète de cette lignée de travaux.
