IRCoT: Prekladanie vyhľadávania s reťazcom úvah pre viacstupňové odpovedanie na otázky
V posledných príspevkoch som čítal o variantoch RAG a chcel som pochopiť IRCoT — prácu autorov Trivedi, Balasubramanian, Khot a Sabharwal (ACL 2023), ktorá prekladá vyhľadávanie s uvažovaním pomocou reťazca myšlienok (Chain-of-Thought), namiesto vykonania jediného vyhľadávacieho prechodu vopred. FLARE k rovnakému problému pristupoval predpovedaním toho, kedy vyhľadávať; IRCoT volí jednoduchší mechanický prístup a kladie priamočiarejšiu otázku: čo ak je každá veta reťazca uvažovania sama o sebe vyhľadávacím dopytom?
O článku
Existujúce procesy „vyhľadaj a prečítaj“ (retrieve-then-read) vyhľadávajú dokumenty raz na základe pôvodnej otázky a potom všetko odovzdajú LLM. Pre jednoduché otázky to často stačí. Pri viacstupňových otázkach — „Kto bol skladateľom filmu, ktorého režisér sa narodil v rovnakom meste ako Bach?“ — sú relevantné dokumenty pre druhý krok identifikovateľné až po čiastočnom zodpovedaní prvého kroku. Autori to nazývajú problémom znalostnej závislosti a tvrdia, že jednostupňové vyhľadávanie je štrukturálne neschopné ho vyriešiť.
IRCoT to rieši striedavou slučkou: vygeneruje sa ďalšia veta reťazca uvažovania, táto veta sa použije ako BM25 dopyt na vyhľadanie ďalších odsekov, vyhľadané odseky sa pridajú do kontextu promptu, vygeneruje sa ďalšia veta uvažovania a proces sa opakuje. Slučka beží až osem krokov, pričom celkový kontext je obmedzený na pätnásť odsekov. Nevyžaduje sa žiadne trénovanie — metóda je založená výlučne na promptovaní a vyhodnocovaná v zero-shot nastavení na GPT-3 (code-davinci-002) a vo few-shot nastavení na Flan-T5.
Kľúčové myšlienky
- Na HotpotQA zvyšuje IRCoT recall vyhľadávania o +11,3 bodu oproti jednostupňovému vyhľadávaniu s GPT-3 a následné F1 skóre QA o +7,1 bodu (60,7 oproti 53,6).
- Zisky sú vyššie pri náročnejších dátových súboroch: o +22,6 bodu v recall a +13,2 bodu v F1 na 2WikiMultihopQA s GPT-3.
- Flan-T5-XXL (11B) s IRCoT dosahuje o +15,3 F1 na 2WikiMultihopQA viac ako jednostupňové vyhľadávanie, čo je najväčší zisk na jeden dátový súbor v článku.
- Flan-T5-XL (3B) s IRCoT prekonáva GPT-3 (175B) s jednostupňovým vyhľadávaním — 58-násobný rozdiel v počte parametrov prekonaný samotnou stratégiou vyhľadávania.
- IRCoT znižuje faktické chyby v generovanom CoT o 50 % na HotpotQA a o 40 % na 2WikiMultihopQA v porovnaní s jednostupňovým vyhľadávaním (manuálna anotácia 40 otázok na dátový súbor).
- Metóda sa dobre generalizuje mimo distribúciu: použitie ukážok z jedného dátového súboru na vyhodnotenie iného vykazuje podobné zisky, čo potvrdzuje, že prístup sa neprispôsobuje len vzorom v rámci distribúcie.
Čo obstojí — a čo nie
Hlavné tvrdenie — že viacstupňové uvažovanie potrebuje viacstupňové vyhľadávanie — je presvedčivé a experimenty sú čisté. Použitie štyroch skutočne náročných viacúrovňových benchmarkov s rôznymi znalostnými štruktúrami (premostenie, porovnanie, diskrétne uvažovanie) robí argumentáciu robustnou. Zistenie z ablácie, že samostatný špecializovaný „čitateľ“ (namiesto priamej extrakcie odpovede z fázy CoT) konzistentne pomáha, je užitočným praktickým poznatkom.
Čo považujem za menej uspokojivé: rozpočet na vyhľadávanie je fixne stanovený na pätnásť odsekov bez ohľadu na náročnosť otázky a kritériom zastavenia je pevný limit krokov, nie signál modelu „mám dosť informácií“. Spúšťanie založené na neistote vo FLARE je v tomto ohľade principiálnejšie, hoci vyžaduje kalibrované pravdepodobnosti tokenov. Chrbtica IRCoT v podobe BM25 je zámerne jednoduchá — husté vyhľadávanie (dense retrieval) by takmer určite výsledky ešte zlepšilo, ale autori ho netestujú; tvrdia, že jednoduchosť robí príspevok reťazca uvažovania jasnejším, čo je fér. Výpočtové náklady sú reálne: každá vygenerovaná veta spúšťa volanie vyhľadávania, takže latencia sa škáluje lineárne s hĺbkou uvažovania. Novšie práce z roku 2025 (LevelRAG, GlobalRAG) uvádzajú, že toto rigidné potrubie „jedna veta — jedno vyhľadávanie“ obmedzuje výkon pri úlohách vyžadujúcich paralelné zhromažďovanie informácií namiesto sekvenčného reťazového uvažovania, pričom GlobalRAG uvádza zlepšenie o 6,54 F1 bodu oproti IRCoT vo svojom benchmarku.
Analýza halucinácií je tiež slabšia, než by som si prial: 40 otázok na dátový súbor je príliš málo na silné tvrdenia a „faktická chyba“ je ručne anotovaná bez uvedenia miery zhody medzi anotátormi.
Prečo je to dôležité pre finančnú AI
Problém závislosti, ktorý IRCoT rieši, priamo mapuje spôsob, akým Beancount agent sleduje viacstupňové finančné otázky. „Aký bol čistý efekt všetkých transakcií týkajúcich sa účtu X medzi dátumami Y a Z po zohľadnení konverzií mien uvedených v poliach poznámok?“ — na toto nemožno odpovedať jediným vektorovým vyhľadávaním. Musíte nájsť zodpovedajúce transakcie, potom vyhľadať referenčné výmenné kurzy a následne potenciálne vyhľadať protiúčty. Každý krok vyhľadávania závisí od toho, čo sa našlo v predchádzajúcom.
Praktickou lekciou pre dizajn je slučka „vyhľadaj-uvažuj“: namiesto vkladania celej viacročnej účtovnej knihy do kontextu alebo vykonávania jedného sémantického vyhľadávania by agent v štýle IRCoT použil každú medziproduktovú vetu uvažovania — „celkový debet na expenses:food v 1. štvrťroku bol 1 240 $“ — ako dopyt pre ďalší krok vyhľadávania. To udržuje kontextové okno štíhle a vyhľadané dôkazy špecifické pre daný účel. Zistenie, že 3B model s dobrým vyhľadávaním poráža 175B model so zlým vyhľadávaním, je obzvlášť relevantné vzhľadom na nákladové obmedzenia prevádzky agentov nad osobnými alebo malými podnikovými účtovnými knihami. Správne nastavenie vyhľadávania môže byť dôležitejšie ako veľkosť modelu.
Obmedzenie, ktoré si treba zapamätať: rigidná štruktúra IRCoT s jedným vyhľadávaním na vetu bude mať problémy s dopytmi v účtovnej knihe, ktoré vyžadujú agregáciu naprieč mnohými paralelnými tokmi dôkazov súčasne — napr. výpočet rozpočtovej odchýlky naprieč dvanástimi podúčtami výdavkov naraz. V takýchto prípadoch by prístup zameraný primárne na plánovanie (ako LATS alebo štruktúrovaný rozklad dopytov) IRCoT skôr dopĺňal, než mu konkuroval.
Čo si prečítať ďalej
- Samotný článok o IRCoT cituje DecomP (Decomposed Prompting, Khot et al. 2022, arXiv:2210.06726) ako kľúčovú základnú líniu — stojí za prečítanie pre pochopenie alternatívnej stratégie rozkladu otázok na podotázky pred vyhľadávaním namiesto prekladania.
- LevelRAG (arXiv:2502.18139) stavia na iteratívnom vyhľadávaní v štýle IRCoT pridaním plánovača na vysokej úrovni, ktorý prepisuje dopyty naprieč viacerými vyhľadávačmi; ide o novší pohľad na rovnaký problém, ktorý rieši rigiditu IRCoT.
- „Chain-of-Retrieval Augmented Generation“ (CoRAG, arXiv:2501.14342) je následná práca z roku 2025, ktorá rámuje viacstupňové vyhľadávanie ako reťazec, čím explicitne vyjadruje slučku IRCoT a pridáva trénovací signál — prirodzený nástupca po prečítaní tohto článku.
