IRCoT: Interleaving van Retrieval met Chain-of-Thought voor Meerstaps QA
Ik heb de afgelopen tijd gelezen over RAG-varianten en wilde IRCoT begrijpen — het paper van Trivedi, Balasubramanian, Khot en Sabharwal (ACL 2023) dat retrieval verweeft met chain-of-thought redeneren in plaats van een enkele retrieval-stap vooraf uit te voeren. FLARE benaderde hetzelfde probleem door te voorspellen wanneer er gezocht moet worden; IRCoT kiest voor een eenvoudigere mechanische aanpak en stelt een meer gerichte vraag: wat als elke zin van een redeneerketen zelf een retrieval-query is?
Het paper
Bestaande retrieve-then-read-pijplijnen halen documenten één keer op basis van de oorspronkelijke vraag en overhandigen vervolgens alles aan een LLM. Voor enkelvoudige vragen is dat vaak voldoende. Voor meerstaps vragen — "Wie was de componist van de film waarvan de regisseur in dezelfde stad als Bach is geboren?" — zijn de relevante documenten voor stap twee pas identificeerbaar nadat je stap één gedeeltelijk hebt beantwoord. De auteurs noemen dit het kennisafhankelijkheidsprobleem en stellen dat eenstaps retrieval structureel niet in staat is dit op te lossen.
IRCoT pakt dit aan met een afwisselende lus: genereer de volgende zin van een redeneerketen, gebruik die zin als een BM25-query om extra paragrafen op te halen, voeg de opgehaalde paragrafen toe aan de prompt-context, genereer de volgende redeneerzin, en herhaal. De lus loopt maximaal acht stappen, waarbij de totale context beperkt blijft tot vijftien paragrafen. Er is geen training vereist — de methode is volledig gebaseerd op prompting en geëvalueerd in zero-shot instellingen op GPT-3 (code-davinci-002) en in few-shot instellingen op Flan-T5.
Belangrijkste ideeën
- Op HotpotQA verbetert IRCoT de retrieval recall met +11,3 punten ten opzichte van eenstaps retrieval met GPT-3, en de stroomafwaartse QA F1 met +7,1 punten (60,7 t.o.v. 53,6).
- De winst is groter op moeilijkere datasets: +22,6 recall-punten en +13,2 F1-punten op 2WikiMultihopQA met GPT-3.
- Flan-T5-XXL (11B) met IRCoT behaalt +15,3 F1 op 2WikiMultihopQA ten opzichte van eenstaps retrieval, wat de grootste winst per dataset in het paper is.
- Flan-T5-XL (3B) met IRCoT presteert beter dan GPT-3 (175B) met eenstaps retrieval — een gat van 58× in parameters dat puur door de retrieval-strategie wordt overbrugd.
- IRCoT vermindert feitelijke fouten in de gegenereerde CoT met 50% op HotpotQA en 40% op 2WikiMultihopQA vergeleken met eenstaps retrieval (handmatige annotatie van 40 vragen per dataset).
- De methode generaliseert buiten de distributie (out-of-distribution): het gebruik van demonstraties van de ene dataset om een andere te evalueren laat vergelijkbare winsten zien, wat bevestigt dat de aanpak niet alleen in-distribution patronen aanleert.
Wat overeind blijft — en wat niet
De kernclaim — dat meerstaps redeneren meerstaps retrieval vereist — is overtuigend en de experimenten zijn helder. Het gebruik van vier werkelijk uitdagende multi-hop benchmarks met verschillende kennisstructuren (bridge, vergelijking, discreet redeneren) maakt de argumentatie breed toepasbaar. De ablatie-studie die aantoont dat een aparte, toegewijde reader (in plaats van directe antwoordextractie uit de CoT-fase) consistent helpt, is een nuttige praktische bevinding.
Wat ik minder bevredigend vind: het retrieval-budget staat vast op vijftien paragrafen, ongeacht de moeilijkheid van de vraag, en het stopcriterium is een harde staplimiet in plaats van een door het model beoordeeld signaal van "ik heb genoeg informatie". De op onzekerheid gebaseerde activering van FLARE is in dat opzicht fundamenteler, hoewel dat gekalibreerde token-waarschijnlijkheden vereist. De BM25-basis van IRCoT is bewust eenvoudig — dense retrieval zou de resultaten vrijwel zeker verder verbeteren, maar de auteurs testen dit niet; zij stellen dat eenvoud de bijdrage van de redeneerketen duidelijker maakt, wat een fair punt is. De rekenkosten zijn aanzienlijk: elke gegenereerde zin triggert een retrieval-aanroep, waardoor de latentie lineair schaalt met de redeneerdiepte. Recent werk uit 2025 (LevelRAG, GlobalRAG) meldt dat deze rigide pijplijn van één-zin-één-retrieval de prestaties beperkt bij taken die parallelle informatieverzameling vereisen in plaats van sequentiële ketenredenering, waarbij GlobalRAG een verbetering van 6,54 F1-punten ten opzichte van IRCoT rapporteert op zijn benchmark.
De hallucinatie-analyse is ook magerder dan ik zou willen: 40 vragen per dataset is te weinig voor harde claims, en "feitelijke fouten" zijn handmatig geannoteerd zonder dat er een inter-beoordelaarsbetrouwbaarheid is gerapporteerd.
Waarom dit belangrijk is voor financiële AI
Het afhankelijkheidsprobleem dat IRCoT oplost, vertaalt zich direct naar hoe een Beancount-agent meerstaps financiële vragen ontrafelt. "Wat was het netto effect van alle transacties op rekening X tussen data Y en Z, na verrekening van de valutaconversies vermeld in de memovelden?" kan niet worden beantwoord met een enkele vector-zoekopdracht — je moet eerst de overeenkomstige transacties vinden, dan de gerefereerde wisselkoersen ophalen, en vervolgens eventueel de tegenrekeningen opzoeken. Elke retrieval-stap hangt af van wat er in de vorige is gevonden.
De praktische ontwerples is de retrieve-reason-lus: in plaats van een volledig meerjarig grootboek in de context te proppen of een enkele semantische zoekopdracht uit te voeren, zou een agent in IRCoT-stijl elke tussenliggende redeneerzin — "het totale debet aan kosten:voedsel in Q1 was €1.240" — gebruiken als query voor de volgende retrieval-stap. Dat houdt het contextvenster slank en de opgehaalde bewijsstukken specifiek voor het doel. De bevinding dat een 3B-model met goede retrieval een 175B-model met slechte retrieval verslaat, is vooral relevant gezien de kostenbeperkingen bij het draaien van agents over persoonlijke of kleinbedrijf-grootboeken. Het goed krijgen van retrieval is wellicht belangrijker dan de schaal van het model.
De beperking om in gedachten te houden: de rigide structuur van één-retrieve-per-zin van IRCoT zal moeite hebben met grootboekquery's die aggregatie over veel parallelle bewijsstromen tegelijk vereisen — bijvoorbeeld het berekenen van een budgetafwijking over twaalf subrekeningen voor kosten tegelijk. Dat is waar een planning-first benadering (zoals LATS of een gestructureerde query-decompositie) IRCoT zou aanvullen in plaats van ermee te concurreren.
Wat nu te lezen
- Het paper van IRCoT zelf citeert DecomP (Decomposed Prompting, Khot et al. 2022, arXiv:2210.06726) als een belangrijke baseline — de moeite waard om te lezen om de alternatieve strategie te begrijpen van het opsplitsen van vragen in subvragen vóór de retrieval, in plaats van het te verweven.
- LevelRAG (arXiv:2502.18139) bouwt voort op iteratieve retrieval in IRCoT-stijl door een planner op hoog niveau toe te voegen die query's herschrijft voor meerdere zoekmachines; een recentere kijk op hetzelfde probleem die de rigiditeit van IRCoT adresseert.
- "Chain-of-Retrieval Augmented Generation" (CoRAG, arXiv:2501.14342) is een vervolg uit 2025 dat meerstaps retrieval kadert als een keten, waardoor de IRCoT-lus expliciet wordt gemaakt en trainingssignalen worden toegevoegd — een natuurlijke opvolger om na dit paper te lezen.
