Prejsť na hlavný obsah

Fusion-in-Decoder: Ako vyhľadávanie vo viacerých pasážach zlepšuje generatívne QA

· 5 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Generovanie rozšírené o vyhľadávanie (Retrieval-augmented generation) stojí a padá na tom, ako dobre dokáže generátor syntetizovať dôkazy roztrúsené vo viacerých dokumentoch. Článok od Izacarda a Gravea z roku 2021 pre EACL s názvom „Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering“ navrhuje klamlivo jednoduchú architektonickú opravu — kódovať pasáže nezávisle a všetky ich spojiť v dekódere — ktorá prekonáva vtedy dominantný rámec RAG o výrazný rozdiel. Čítam to teraz, pretože tento dizajnový princíp sa priamo vzťahuje na QA (odpovedanie na otázky) v účtovných knihách: predtým, než sa rozhodneme, ako vyhľadávať záznamy v Beancount agentoch, stojí za to pochopiť, ktorá stratégia spájania (fusion) skutočne funguje.

Článok

2026-05-26-fusion-in-decoder-passage-retrieval-generative-qa

Pôvodný RAG od Lewisa a kol. (arXiv:2005.11401) spája hustý retriever s generátorom BART, ale núti generátor podmieňovať výsledok vždy len jednou vyhľadanou pasážou naraz, pričom pasáže marginalizuje buď na úrovni sekvencie (RAG-Sequence) alebo na úrovni tokenu (RAG-Token). Izacard a Grave to identifikovali ako hlavné obmedzenie: model, ktorý vidí naraz len jednu pasáž, nemôže ľahko triangulovať informácie naprieč dôkazmi rozptýlenými v dokumentoch.

Ich riešenie FiD (Fusion-in-Decoder) je elegantné. Každá vyhľadaná pasáž sa spojí s otázkou a potom sa nezávisle zakóduje enkóderom T5. Enkóder beží raz pre každú pasáž — čo je plne paralelizovateľné. Dekóder potom vykonáva cross-attention nad konkatenáciou všetkých reprezentácií pasáží súčasne. Komplexita enkódera rastie lineárne s počtom pasáží; dekóder sa však môže venovať hraniciam pasáží počas každého kroku generovania. Článok používa T5-base a T5-large ako základ generátora.

Kľúčové myšlienky

  • FiD-large so 100 vyhľadanými pasážami dosahuje 51,4 % presnej zhody (exact match) v teste Natural Questions a 67,6 % v TriviaQA open, v porovnaní so 47,5 % a 56,1 % pri RAG-Sequence — čo predstavuje nárast o približne 4 a 11 bodov.
  • Výkon v teste Natural Questions rastie monotónne s počtom pasáží: 37,3 % pri 1 pasáži, 48,8 % pri 10, 50,8 % pri 50, 51,4 % pri 100. Marginálna návratnosť klesá, ale nikdy sa neobracia.
  • TriviaQA sa zlepšuje o 6 % a Natural Questions o 3,5 % pri škálovaní z 10 na 100 pasáží — čo je dôkazom toho, že dekóder skutočne agreguje informácie a nevyberá si len najlepšiu pasáž.
  • Krok kódovania je lacný na paralelizáciu: každý pár (otázka, pasáž) sa spracováva nezávisle, takže reálny čas spracovania (wall-clock time) rastie sublineárne s hardvérom.
  • FiD-base so 770M parametrami prekonáva T5-11B v režime closed-book (44,1 % oproti 36,6 % na NQ), čo dokazuje, že vyhľadávanie umožňuje menším modelom dosahovať výsledky ďaleko nad ich váhovú kategóriu.

Čo obstojí — a čo nie

Základný výsledok je robustný a bol rozsiahlo replikovaný. Architektonický poznatok — nezávislé kódovanie, spoločné dekódovanie — je skutočne čistý: vyhýba sa kvadratickému nárastu self-attention, ktorý by vyplynul z naivného spájania všetkých pasáží pred enkóderom, pričom dekóderu stále poskytuje globálny kontext nad všetkými vyhľadanými dôkazmi.

Obmedzenie, ktoré článok takmer nepriznáva, je, že cross-attention dekódera je pri inferencii úzkym hrdlom. Cross-attention musí načítať všetky kľúč-hodnota (key-value) páry enkódera pre každú vrstvu dekódera v každom kroku generovania a tieto tenzory rastú lineárne s počtom pasáží. Nadväzujúca práca FiDO z roku 2023 (arXiv:2212.08153) ukázala, že nahradenie multi-head attention za multi-query attention a prerezanie vrstiev cross-attention prináša 7-násobné zrýchlenie inferencie pri minimálnej strate presnosti — čo naznačuje, že pôvodný FiD dekóder je pre danú úlohu podstatne predimenzovaný.

Existuje tiež kalibračná medzera, ktorú článok neskúma: uvádza presnú zhodu (exact match), čo odmeňuje systémy, ktorým sa podarí vyprodukovať presný kánonický reťazec odpovede. Pri úlohách faktickej syntézy — sumarizovaní zistení naprieč viacerými pasážami namiesto extrahovania úseku textu — presná zhoda podhodnocuje chyby a nadhodnocuje sebaistotu. Vo finančnom prostredí, kde je nesprávne číslo v inak správnej vete vážnym zlyhaním, je presná zhoda úplne nesprávnou metrikou.

Prečo je to dôležité pre finančnú AI

QA účtovnej knihy Beancount je zo svojej podstaty problémom vyhľadávania vo viacerých pasážach. Otázka typu „Koľko som minul na cestovanie v 3. štvrťroku naprieč všetkými účtami?“ vyžaduje syntézu desiatok transakčných záznamov z rôznych dátumov, účtov a typov komodít. Hlavné zistenie FiD — že generatívne modely dokážu agregovať informácie z mnohých vyhľadaných pasáží a že výkon sa zlepšuje s väčším kontextom — je priamo povzbudivé.

Praktický dôsledok pre dizajn je konkrétny: pri budovaní QA vrstvy pre Beancount je získanie väčšieho počtu kandidátskych záznamov (50 – 100 namiesto zvyčajných top 5) a poskytnutie spoločného prístupu generátora ku všetkým pravdepodobne lepšie než spoliehanie sa na preusporiadanie (re-ranking) s cieľom vybrať jednu správnu odpoveď. Architektúra FiD sa tiež čisto mapuje na štruktúru účtovnej knihy: každý záznam transakcie môže byť kódovaný nezávisle (lacné, paralelizovateľné) predtým, než dekóder vykoná syntézu naprieč všetkými.

Obava o náklady na inferenciu je pri produkčnom nasadení reálna, ale nadväzujúca práca FiDO ukazuje, že je to riešiteľné na úrovni architektúry bez straty presnosti. Naliehavejším obmedzením pre finančných agentov je to, že FiD je navrhnutý pre faktografické QA s krátkymi generatívnymi výstupmi. Analýza účtovnej knihy často vyžaduje viackrokovú aritmetiku — sčítanie súm, výpočet pomerov — a generátor FiD to prirodzene nesmeruje na interpret kódov. Kombinácia spájania v štýle FiD s hlavou na generovanie kódu v štýle PAL je prirodzeným ďalším krokom pre numerickú presnosť.

Čo si prečítať ďalej

  • FiDO (arXiv:2212.08153, ACL Findings 2023) — multi-query attention a prerezávanie cross-attention obnovujú presnosť FiD pri 7x rýchlejšej inferencii; nevyhnutné pred nasadením FiD do produkcie.
  • REALM: Retrieval-Augmented Language Model Pre-Training (arXiv:2002.08909, ICML 2020) — Guu a kol. ukazujú, ako začleniť vyhľadávanie už počas predtrénovania a nie až pri inferencii; poskytuje motiváciu, na ktorej FiD stavia.
  • Atlas: Few-shot Learning with Retrieval Augmented Language Models (arXiv:2208.03299, JMLR 2023) — rozšírenie FiD od samotných autorov Izacarda a kol. do few-shot nastavení so spoločným trénovaním retrievera a čítačky, najkompletnejšia syntéza tohto smeru práce.