IRCoT: Intercalando Recuperação com Cadeia de Pensamento para QA de Múltiplas Etapas
Tenho lido sobre variantes de RAG nas últimas entradas e quis entender o IRCoT — o artigo de Trivedi, Balasubramanian, Khot e Sabharwal (ACL 2023) que intercala a recuperação com o raciocínio de cadeia de pensamento (chain-of-thought), em vez de fazer uma única passagem de recuperação inicial. O FLARE abordou o mesmo problema prevendo quando recuperar; o IRCoT adota uma abordagem mecânica mais simples e faz uma pergunta mais direta: e se cada frase de uma cadeia de raciocínio fosse, por si só, uma consulta de recuperação?
O artigo
Os pipelines atuais de "recuperar-depois-ler" recuperam documentos uma vez com base na pergunta original e depois entregam tudo a um LLM. Para perguntas de salto único, isso costuma ser suficiente. Para perguntas de múltiplas etapas — "Quem foi o compositor do filme cujo diretor nasceu na mesma cidade que Bach?" — os documentos relevantes para a segunda etapa só são identificáveis após você ter respondido parcialmente à primeira etapa. Os autores chamam isso de problema de dependência de conhecimento e argumentam que a recuperação em uma única etapa é estruturalmente incapaz de resolvê-lo.
O IRCoT aborda isso com um loop alternado: gera a próxima frase de uma cadeia de raciocínio, usa essa frase como uma consulta BM25 para recuperar parágrafos adicionais, adiciona os parágrafos recuperados ao contexto do prompt, gera a próxima frase de raciocínio e repete. O loop é executado por até oito etapas, limitando o contexto total a quinze parágrafos. Nenhum treinamento é necessário — o método é inteiramente baseado em prompting e avaliado em zero-shot no GPT-3 (code-davinci-002) e em configurações de few-shot no Flan-T5.
Ideias principais
- No HotpotQA, o IRCoT melhora o recall de recuperação em +11,3 pontos em relação à recuperação de etapa única com GPT-3, e o F1 de QA a jusante em +7,1 pontos (60,7 vs 53,6).
- Os ganhos são maiores em conjuntos de dados mais difíceis: +22,6 pontos de recall e +13,2 pontos de F1 no 2WikiMultihopQA com GPT-3.
- O Flan-T5-XXL (11B) com IRCoT alcança +15,3 de F1 no 2WikiMultihopQA em relação à recuperação de etapa única, que é o maior ganho por conjunto de dados no artigo.
- O Flan-T5-XL (3B) com IRCoT supera o GPT-3 (175B) com recuperação de etapa única — uma lacuna de 58× em parâmetros superada apenas pela estratégia de recuperação.
- O IRCoT reduz erros factuais na CoT gerada em 50% no HotpotQA e 40% no 2WikiMultihopQA em relação à recuperação de etapa única (anotação manual de 40 perguntas por conjunto de dados).
- O método se generaliza fora da distribuição: o uso de demonstrações de um conjunto de dados para avaliar outro mostra ganhos semelhantes, confirmando que a abordagem não está apenas se ajustando a padrões dentro da distribuição.
O que se sustenta — e o que não
A alegação central — de que o raciocínio de múltiplas etapas precisa de recuperação de múltiplas etapas — é convincente e os experimentos são claros. O uso de quatro benchmarks de múltiplos saltos genuinamente difíceis com diferentes estruturas de conhecimento (ponte, comparação, raciocínio discreto) torna o caso amplamente sólido. A ablação que mostra que um leitor dedicado separado (em vez da extração de resposta diretamente da fase CoT) ajuda consistentemente é uma descoberta prática útil.
O que acho menos satisfatório: o orçamento de recuperação é fixado em quinze parágrafos, independentemente da dificuldade da pergunta, e o critério de parada é um limite rígido de etapas, em vez de um sinal avaliado pelo modelo de "já tenho informações suficientes". O acionamento baseado em incerteza do FLARE é mais fundamentado nesse aspecto, embora exija probabilidades de token calibradas. O backbone BM25 do IRCoT é deliberadamente simples — a recuperação densa quase certamente melhoraria ainda mais os resultados, mas os autores não a testam; eles argumentam que a simplicidade torna a contribuição da cadeia de raciocínio mais clara, o que é justo. O custo computacional é real: cada frase gerada aciona uma chamada de recuperação, portanto a latência aumenta linearmente com a profundidade do raciocínio. Trabalhos recentes em 2025 (LevelRAG, GlobalRAG) relatam que esse pipeline rígido de "uma frase, uma recuperação" restringe o desempenho em tarefas que exigem coleta de informações paralelas em vez de raciocínio sequencial em cadeia, com o GlobalRAG relatando uma melhoria de 6,54 pontos de F1 sobre o IRCoT em seu benchmark.
A análise de alucinações também é mais superficial do que eu gostaria: 40 perguntas por conjunto de dados é pouco para alegações fortes, e o "erro factual" é anotado manualmente sem que a concordância entre anotadores seja relatada.
Por que isso importa para a IA financeira
O problema de dependência que o IRCoT resolve mapeia-se diretamente na forma como um agente Beancount rastreia questões financeiras de múltiplas etapas. "Qual foi o efeito líquido de todas as transações que tocaram a conta X entre as datas Y e Z, após considerar as conversões de moeda anotadas nos campos memo?" não pode ser respondido com uma única busca vetorial — você precisa encontrar as transações correspondentes, depois recuperar as taxas de câmbio referenciadas e, potencialmente, recuperar as contrapartidas. Cada etapa de recuperação depende do que foi encontrado na anterior.
A lição prática de design é o loop de recuperar-raciocinar: em vez de socar um livro-razão inteiro de vários anos no contexto ou realizar uma única busca semântica, um agente no estilo IRCoT usaria cada frase de raciocínio intermediária — "o débito total em despesas:alimentação no T1 foi de $1.240" — como a consulta para a próxima etapa de recuperação. Isso mantém a janela de contexto enxuta e as evidências recuperadas específicas para o propósito. A descoberta de que um modelo de 3B com boa recuperação supera um modelo de 175B com recuperação deficiente é especialmente relevante dados os limites de custo de execução de agentes sobre livros-razão pessoais ou de pequenas empresas. Acertar na recuperação pode importar mais do que a escala do modelo.
A limitação que vale a pena considerar: a estrutura rígida de uma recuperação por frase do IRCoT terá dificuldades com consultas de livros-razão que exigem a agregação de muitos fluxos de evidência paralelos simultaneamente — por exemplo, computar uma variação orçamentária em doze subcontas de despesas de uma só vez. É aí que uma abordagem de planejamento primeiro (como LATS ou uma decomposição de consulta estruturada) complementaria o IRCoT em vez de competir com ele.
O que ler a seguir
- O próprio artigo do IRCoT cita o DecomP (Decomposed Prompting, Khot et al. 2022, arXiv:2210.06726) como uma linha de base principal — vale a leitura para entender a estratégia alternativa de decompor perguntas em subperguntas antes da recuperação, em vez de intercalar.
- O LevelRAG (arXiv:2502.18139) baseia-se na recuperação iterativa do estilo IRCoT, adicionando um planejador de alto nível que reescreve consultas em vários motores de busca; uma abordagem mais recente para o mesmo problema que aborda a rigidez do IRCoT.
- "Chain-of-Retrieval Augmented Generation" (CoRAG, arXiv:2501.14342) é uma continuação de 2025 que enquadra a recuperação de múltiplas etapas como uma cadeia, tornando o loop do IRCoT explícito e adicionando sinal de treinamento — um sucessor natural para ler após este artigo.
