Salta al contingut principal

IRCoT: Entrellaçament de la recuperació amb la cadena de pensament per a preguntes i respostes de múltiples passos

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

He estat llegint sobre variants de RAG en les darreres entrades i volia entendre IRCoT —l'article de Trivedi, Balasubramanian, Khot i Sabharwal (ACL 2023) que entrellaça la recuperació amb el raonament de cadena de pensament en lloc de fer una única passada de recuperació inicial. FLARE va abordar el mateix problema predient quan calia recuperar; IRCoT adopta un enfocament mecànic més senzill i planteja una pregunta més directa: i si cada frase d'una cadena de raonament fos en si mateixa una consulta de recuperació?

L'article

2026-05-19-ircot-interleaving-retrieval-chain-of-thought-multi-step-qa

Els fluxos de treball actuals de "recuperar i després llegir" recuperen documents un cop basant-se en la pregunta original i després ho lliuren tot a un LLM. Per a preguntes d'un sol salt, sovint n'hi ha prou. Per a preguntes de múltiples passos —"Qui va ser el compositor de la pel·lícula el director de la qual va néixer a la mateixa ciutat que Bach?"—, els documents rellevants per al segon pas només es poden identificar després d'haver respost parcialment al primer pas. Els autors anomenen a això el problema de la dependència del coneixement i argumenten que la recuperació d'un sol pas és estructuralment incapaç de resoldre'l.

IRCoT aborda això amb un bucle alternant: genera la següent frase d'una cadena de raonament, utilitza aquesta frase com una consulta BM25 per recuperar paràgrafs addicionals, afegeix els paràgrafs recuperats al context del prompt, genera la següent frase de raonament i repeteix. El bucle s'executa fins a vuit passos, limitant el context total a quinze paràgrafs. No es requereix entrenament —el mètode es basa totalment en el prompting i s'avalua en modalitat zero-shot en GPT-3 (code-davinci-002) i en configuracions few-shot en Flan-T5.

Idees clau

  • A HotpotQA, IRCoT millora la recuperació (recall) en +11,3 punts respecte a la recuperació d'un sol pas amb GPT-3, i la F1 de QA final en +7,1 punts (60,7 vs 53,6).
  • Els guanys són més grans en conjunts de dades més difícils: +22,6 punts de recuperació i +13,2 punts de F1 a 2WikiMultihopQA amb GPT-3.
  • Flan-T5-XXL (11B) amb IRCoT aconsegueix +15,3 de F1 a 2WikiMultihopQA respecte a la recuperació d'un sol pas, que és el guany per conjunt de dades més gran de l'article.
  • Flan-T5-XL (3B) amb IRCoT supera el GPT-3 (175B) amb recuperació d'un sol pas —una bretxa de paràmetres de 58 vegades superada només per l'estratègia de recuperació.
  • IRCoT redueix els errors fàctics en la cadena de pensament (CoT) generada en un 50% a HotpotQA i un 40% a 2WikiMultihopQA en relació amb la recuperació d'un sol pas (anotació manual de 40 preguntes per conjunt de dades).
  • El mètode es generalitza fora de distribució: l'ús de demostracions d'un conjunt de dades per avaluar-ne un altre mostra guanys similars, confirmant que l'enfocament no només s'ajusta a patrons interns de la distribució.

Què es manté — i què no

L'afirmació central —que el raonament de múltiples passos necessita una recuperació de múltiples passos— és convincent i els experiments són nets. L'ús de quatre referències (benchmarks) de múltiples salts realment difícils amb diferents estructures de coneixement (pont, comparació, raonament discret) dóna solidesa al cas. L'ablació que mostra que un lector dedicat independent (en lloc de l'extracció de respostes directament de la fase CoT) ajuda de manera consistent és una troballa pràctica útil.

El que trobo menys satisfactori: el pressupost de recuperació és fix en quinze paràgrafs independentment de la dificultat de la pregunta, i el criteri d'aturada és un límit de passos rígid en lloc d'un senyal avaluat pel model de "ja tinc prou informació". L'activació basada en la incertesa de FLARE és més conceptualment sòlida en aquest sentit, tot i que requereix probabilitats de tokens calibrades. L'estructura de BM25 d'IRCoT és deliberadament senzilla —la recuperació densa gairebé segur que milloraria els resultats encara més, però els autors no la proven; argumenten que la simplicitat fa que la contribució de la cadena de raonament sigui més clara, la qual cosa és raonable. El cost computacional és real: cada frase generada activa una crida de recuperació, de manera que la latència escala linealment amb la profunditat del raonament. Treballs recents del 2025 (LevelRAG, GlobalRAG) informen que aquest flux rígid d'una-frase-una-recuperació limita el rendiment en tasques que requereixen una recollida d'informació en paral·lel en lloc d'un raonament en cadena seqüencial, amb GlobalRAG informant d'una millora de 6,54 punts de F1 sobre IRCoT en el seu benchmark.

L'anàlisi d'al·lucinacions també és més minsa del que voldria: 40 preguntes per conjunt de dades és massa poc per a afirmacions contundents, i l'"error fàctic" s'anota a mà sense informar de l'acord entre anotadors.

Per què això és important per a la IA financera

El problema de dependència que resol IRCoT es tradueix directament en com un agent de Beancount rastreja preguntes financeres de múltiples passos. "Quin va ser l'efecte net de totes les transaccions que afecten el compte X entre les dates Y i Z, després de comptabilitzar les conversions de moneda anotades en els camps de comentari (memo)?" no es pot respondre amb una sola cerca vectorial —cal trobar les transaccions coincidents, després recuperar els tipus de canvi referenciats i, finalment, potser recuperar els comptes de contrapartida. Cada pas de recuperació depèn del que s'ha trobat en l'anterior.

La lliçó de disseny pràctic és el bucle recuperació-raonament: en lloc d'intentar encabir tot un llibre major de diversos anys en el context o realitzar una única cerca semàntica, un agent a l'estil IRCoT utilitzaria cada frase de raonament intermedi —"el total de dèbits a despeses:menjar al primer trimestre va ser de 1.240 $"— com a consulta per al següent pas de recuperació. Això manté la finestra de context reduïda i l'evidència recuperada específica per a l'objectiu. La troballa que un model de 3B amb bona recuperació supera un model de 175B amb mala recuperació és especialment rellevant donades les limitacions de cost d'executar agents sobre llibres majors personals o de petites empreses. Fer bé la recuperació pot importar més que l'escala del model.

La limitació que val la pena tenir en compte: l'estructura rígida d'una recuperació per frase d'IRCoT tindrà dificultats amb les consultes al llibre major que requereixen l'agregació a través de molts fluxos d'evidència paral·lels simultàniament —per exemple, calcular una desviació pressupostària a través de dotze subcomptes de despeses alhora. Aquí és on un enfocament de planificació prèvia (com LATS o una descomposició de consulta estructurada) complementaria IRCoT en lloc de competir-hi.

Què llegir a continuació

  • L'article d'IRCoT cita DecomP (Decomposed Prompting, Khot et al. 2022, arXiv:2210.06726) com una línia base clau —val la pena llegir-lo per entendre l'estratègia alternativa de descomposar preguntes en subpreguntes abans de la recuperació en lloc d'entrellaçar-les.
  • LevelRAG (arXiv:2502.18139) es basa en la recuperació iterativa a l'estil IRCoT afegint un planificador d'alt nivell que reescriu consultes a través de múltiples motors de cerca; una versió més recent del mateix problema que aborda la rigidesa d'IRCoT.
  • "Chain-of-Retrieval Augmented Generation" (CoRAG, arXiv:2501.14342) és un seguiment del 2025 que emmarca la recuperació de múltiples passos com una cadena, fent explícit el bucle d'IRCoT i afegint senyal d'entrenament —un successor natural per llegir després d'aquest article.