Pular para o conteúdo principal

StructRAG (ICLR 2025): Escolher a Estrutura de Documento Correta Vence o GraphRAG por 28 Pontos

· 7 min para ler
Mike Thrift
Mike Thrift
Marketing Manager

A queixa recorrente contra o RAG em produção é que a recuperação é um instrumento rudimentar quando os fatos relevantes estão espalhados por dezenas de documentos em formatos incompatíveis. O StructRAG (Li et al., ICLR 2025) ataca isso diretamente convertendo o texto recuperado em uma estrutura apropriada para a tarefa — tabela, grafo, catálogo, algoritmo ou bloco simples — antes de realizar o raciocínio sobre ele. Ele é motivado por uma alegação da teoria cognitiva: de que os humanos naturalmente remodelam informações brutas em representações estruturadas ao lidar com tarefas de raciocínio complexas. Se esse enquadramento é mais metáfora do que mecanismo, os números empíricos valem um exame cuidadoso.

O artigo

2026-06-01-structrag-inference-time-hybrid-information-structurization

O StructRAG propõe um pipeline em tempo de inferência com três módulos. Primeiro, um roteador de estrutura híbrida (Qwen2-7B-Instruct, ajustado com DPO em 900 pares de preferência sintéticos) prevê qual dos cinco tipos de estrutura melhor se adapta à pergunta recebida e aos seus documentos. Segundo, um estruturador de conhecimento disperso (Qwen2-72B-Instruct) reescreve os blocos recuperados no formato escolhido. Terceiro, um utilizador de conhecimento estruturado decompõe a pergunta em subperguntas, recupera os fragmentos estruturados relevantes e gera a resposta final. Os cinco tipos de estrutura são: tabela (comparações estatísticas), grafo (cadeias multi-hop, codificadas como triplas cabeça-relação-cauda), algoritmo (tarefas de planejamento, escritas como pseudocódigo), catálogo (sumarização, numeração hierárquica) e bloco (multi-hop simples, o padrão de fallback do RAG).

Os autores avaliam principalmente no benchmark Loong (EMNLP 2024 Oral), um benchmark de QA multidocumento que abrange relatórios financeiros, casos jurídicos e artigos acadêmicos, com entradas variando de 10 mil a 250 mil tokens, cobrindo quatro tipos de tarefas: Localização de Destaque, Comparação, Agrupamento e Cadeia de Raciocínio.

Ideias principais

  • O roteador treinado com DPO atinge 94,38% de precisão na seleção do tipo de estrutura, contra 50,04% em zero-shot com o Qwen2-72B-Instruct — a decisão de roteamento é o componente individual mais crítico. A remoção do roteador derruba a pontuação geral do LLM de 60,38 para 45,33.
  • No nível mais difícil de comprimento de documento (200K–250K tokens), o StructRAG pontua 51,42 contra 28,92 do Long-Context e 29,29 do RAG — uma lacuna de ~22 pontos que aumenta conforme o contexto cresce. A abordagem padrão de "apenas colocar tudo dentro" deteriora-se bruscamente, enquanto o StructRAG degrada-se de forma mais suave.
  • O GraphRAG, apesar de também impor estrutura, obtém uma pontuação geral de LLM de 40,82 no Loong contra 69,43 do StructRAG, e leva 217,1 minutos por consulta contra 9,7 minutos do StructRAG. Construir previamente um grafo de conhecimento global é mais lento e menos preciso do que escolher o formato certo sob demanda.
  • Em Transcrições de Podcasts (sumarização aberta), o StructRAG alcança uma taxa de vitória pareada de 95,75% sobre o Long-Context, sugerindo que a síntese estruturada supera as abordagens de contexto total mesmo em materiais de origem menos estruturados.
  • As pontuações de correspondência exata (EM) ficam consistentemente atrás das pontuações julgadas por LLM porque a estruturação altera a redação da superfície (por exemplo, "$1.308.463" torna-se "1308463" em uma célula de tabela), criando um problema sistemático de incompatibilidade de tokens que penaliza a avaliação automatizada.

O que se sustenta — e o que não

O resultado central é real e a história da ablação é clara: o roteamento é o que mais importa, seguido pela estruturação e, depois, pela utilização. A melhoria em comprimentos de documentos longos é a descoberta mais forte — 22 pontos em 200 mil tokens não é ruído.

Dito isso, tenho três ressalvas. Primeiro, a cobertura do benchmark é limitada. O StructRAG relata apenas o Loong e Transcrições de Podcasts. Benchmarks multi-hop padrão (HotpotQA, 2WikiMultiHopQA, MuSiQue, NQ) estão notavelmente ausentes, o que torna impossível avaliar como o StructRAG se compara ao grande corpo de pesquisas prévias sobre recuperação nessas divisões estabelecidas. Os revisores do ICLR presumivelmente levantaram isso; o artigo não oferece resposta direta na versão publicada.

Segundo, o modelo de avaliação é o GPT-4. A pontuação com LLM como juiz é suscetível ao viés de comprimento e preferências estilísticas que podem favorecer saídas do mesmo processo de estruturação, especialmente quando o juiz foi treinado em textos estruturados semelhantes. A métrica EM é um corretivo, mas os autores a enquadram como uma limitação da métrica em vez de evidência de um problema com o método.

Terceiro, o StructRAG é testado com um backbone grande (Qwen2-72B-Instruct para o estruturador e o utilizador). Não está claro quanto do ganho vem do roteamento versus simplesmente chamar um modelo poderoso para reescrever e resumir. Uma ablação contra uma linha de base de resposta direta de mesmo tamanho resolveria isso, mas não é apresentada.

Por que isso importa para a IA financeira

Os livros-razão do Beancount são o exemplo canônico do problema de "informações dispersas". Uma única pergunta de conciliação — "por que meus ativos líquidos caíram no terceiro trimestre?" — pode exigir a leitura de entradas de transações de três contas, o cruzamento de referências com um relatório de balanço patrimonial e o rastreamento de uma cadeia de correção de várias etapas. Isso mapeia quase um para um nos tipos de estrutura do StructRAG: tabelas para comparações de saldo, grafos para cadeias de transações, catálogos para resumos de período.

O insight de roteamento é especialmente aplicável. Um agente Beancount focado em consultas não deve sempre despejar blocos no contexto; ele deve primeiro perguntar qual forma a resposta exige. Uma pergunta sobre tendência de saldo precisa de uma tabela. Uma pergunta do tipo "explique esta cadeia de reembolso" precisa de um grafo. Uma pergunta "resuma os gastos deste ano" precisa de um catálogo. Configurar essa decisão de roteamento explicitamente — mesmo com um modelo pequeno — poderia reduzir drasticamente a alucinação e a distorção de números que assolam as tentativas atuais de QA em livros-razão.

A história da latência de 217 para 9,7 minutos também importa na prática. Para um agente Beancount interativo, o custo de pré-indexação do GraphRAG é proibitivo para livros-razão atualizados com frequência; a abordagem em tempo de inferência do StructRAG se ajusta melhor ao caso de uso de livros-razão com muita escrita e pouca consulta.

A ressalva: o estruturador do StructRAG é uma chamada de LLM grande em cada consulta. Para históricos de livros-razão longos, esse custo de inferência pode se tornar significativo. A estruturação eficiente em termos de tokens — talvez um modelo menor ajustado — é uma questão de engenharia aberta.

O que ler a seguir

  • From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Edge et al., 2024, arXiv:2404.16130) — O Microsoft GraphRAG usa resumos de comunidade para consultas globais; entender onde a estruturação em tempo de inferência do StructRAG vence a pré-indexação do GraphRAG é a principal compensação arquitetônica a ser definida.
  • FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) — testa 13 LLMs em arquivos XBRL com tabelas hierárquicas; um teste direto para saber se as estruturas de tabela e catálogo do StructRAG se transferem para o formato de arquivamento estruturado com o qual os livros-razão do Beancount se assemelham.
  • InvestorBench: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent (arXiv:2412.18174, ACL 2025) — avalia agentes em decisões financeiras reais, o que nos permitiria medir se o raciocínio estruturado do StructRAG realmente ajuda na qualidade da decisão a jusante, além da precisão de QA de salto único.