Doorgaan naar hoofdinhoud

StructRAG (ICLR 2025): De juiste documentstructuur kiezen verslaat GraphRAG met 28 punten

· 6 min leestijd
Mike Thrift
Mike Thrift
Marketing Manager

De constante klacht over RAG in productie is dat retrieval een bot instrument is wanneer de relevante feiten verspreid zijn over tientallen documenten in incompatibele formaten. StructRAG (Li et al., ICLR 2025) pakt dit direct aan door opgehaalde tekst om te zetten in een taakgeschikte structuur — tabel, graaf, catalogus, algoritme of een gewone 'chunk' — alvorens erover te redeneren. Dit is gemotiveerd door een cognitieve theoretische claim: dat mensen ruwe informatie op natuurlijke wijze omvormen tot gestructureerde representaties bij het aanpakken van complexe redeneertaken. Of die inkadering nu meer een metafoor is dan een mechanisme, de empirische cijfers zijn de moeite waard om zorgvuldig te bekijken.

Het artikel

2026-06-01-structrag-inference-time-hybrid-information-structurization

StructRAG stelt een inferentie-pipeline voor met drie modules. Ten eerste voorspelt een hybrid structure router (Qwen2-7B-Instruct, fijn-afgesteld met DPO op 900 synthetische voorkeursparen) welk van de vijf structuurtypes het best past bij de binnenkomende vraag en de bijbehorende documenten. Ten tweede herschrijft een scattered knowledge structurizer (Qwen2-72B-Instruct) de opgehaalde chunks in dat gekozen formaat. Ten derde splitst een structured knowledge utilizer de vraag op in deelvragen, haalt de relevante gestructureerde fragmenten op en genereert het definitieve antwoord. De vijf structuurtypes zijn: tabel (statistische vergelijkingen), graaf (multi-hop ketens, gecodeerd als kop–relatie–staart triples), algoritme (planningstaken, geschreven als pseudocode), catalogus (samenvatting, hiërarchische nummering) en chunk (eenvoudige single-hop, de standaard RAG-terugvaloptie).

De auteurs evalueren voornamelijk op de Loong-benchmark (EMNLP 2024 Oral), een QA-benchmark voor meerdere documenten die financiële rapporten, juridische zaken en academische artikelen omvat, met inputs variërend van 10K tot 250K tokens, verdeeld over vier taaktypes: Spotlight Locating, Comparison, Clustering en Chain of Reasoning.

Belangrijkste ideeën

  • De met DPO getrainde router bereikt een nauwkeurigheid van 94,38% bij de selectie van het structuurtype, tegenover 50,04% zero-shot met Qwen2-72B-Instruct — de routeringsbeslissing is het meest kritieke onderdeel. Het weglaten van de router verlaagt de algemene LLM-score van 60,38 naar 45,33.
  • Op het moeilijkste niveau van documentlengte (200K–250K tokens) scoort StructRAG 51,42 versus Long-Context op 28,92 en RAG op 29,29 — een gat van ~22 punten dat groter wordt naarmate de context toeneemt. De standaard aanpak van "prop alles er maar in" verslechtert scherp, terwijl StructRAG geleidelijker degradeert.
  • GraphRAG scoort, ondanks het feit dat het ook structuur oplegt, een algemene LLM-score van 40,82 op Loong tegenover de 69,43 van StructRAG, en het duurt 217,1 minuten per zoekopdracht tegenover 9,7 minuten voor StructRAG. Het vooraf opbouwen van een globale kennisgraaf is zowel trager als minder nauwkeurig dan het op aanvraag kiezen van het juiste formaat.
  • Op Podcast Transcripts (open samenvatting) behaalt StructRAG een winstpercentage van 95,75% in paarsgewijze vergelijking met Long-Context, wat suggereert dat gestructureerde synthese beter presteert dan volledige-contextbenaderingen, zelfs bij minder gestructureerd bronmateriaal.
  • De exact-match (EM) scores blijven consequent achter bij de door LLM beoordeelde scores omdat structurering de uiterlijke bewoording verandert (bijv. "$1.308.463" wordt "138463" in een tabelcel), wat een systematisch token-mismatch probleem creëert dat geautomatiseerde evaluatie afstraft.

Wat overeind blijft — en wat niet

Het kernresultaat is reëel en het ablatieverhaal is helder: routering is het belangrijkst, gevolgd door structurering, gevolgd door gebruik. De verbetering bij lange documenten is de sterkste bevinding — 22 punten bij 200K tokens is geen ruis.

Dat gezegd hebbende, heb ik drie bedenkingen. Ten eerste is de dekking van benchmarks mager. StructRAG rapporteert alleen over Loong en Podcast Transcripts. Standaard multi-hop benchmarks (HotpotQA, 2WikiMultiHopQA, MuSiQue, NQ) ontbreken opvallend, wat het onmogelijk maakt om te beoordelen hoe StructRAG zich verhoudt tot de grote hoeveelheid eerder retrieval-onderzoek op die gevestigde datasets. Reviewers bij ICLR hebben dit vermoedelijk aangekaart; het artikel biedt geen direct antwoord in de gepubliceerde versie.

Ten tweede is het evaluatiemodel GPT-4. LLM-as-judge scoring is gevoelig voor lengte-bias en stilistische voorkeuren die de voorkeur kunnen geven aan outputs van hetzelfde structureringsproces, vooral wanneer de beoordelaar is getraind op vergelijkbare gestructureerde tekst. De EM-metriek is een correctie, maar de auteurs kaderen dit in als een beperking van de metriek in plaats van als bewijs van een probleem met de methode.

Ten derde is StructRAG getest met een grote basis (Qwen2-72B-Instruct voor de structurizer en utilizer). Het is onduidelijk hoeveel van de winst voortkomt uit routering versus het simpelweg aanroepen van een krachtig model om te herschrijven en samen te vatten. Een ablatie tegen een baseline met een direct antwoord van hetzelfde formaat zou dit ophelderen, maar dit wordt niet gepresenteerd.

Waarom dit belangrijk is voor finance AI

Beancount-grootboeken zijn het klassieke voorbeeld van het probleem van "verspreide informatie". Een enkele afstemmingsvraag — "waarom daalden mijn netto-activa in Q3?" — kan vereisen dat transactie-items uit drie rekeningen worden gelezen, een balansrapport wordt geraadpleegd en een meerstaps correctieketen wordt getraceerd. Deze sluiten bijna één-op-één aan bij de structuurtypes van StructRAG: tabellen voor balansvergelijkingen, grafen voor transactieketens, catalogi voor periodieke samenvattingen.

Het inzicht in routering is in het bijzonder toepasbaar. Een op vragen gerichte Beancount-agent zou niet altijd chunks in de context moeten dumpen; hij zou eerst moeten vragen welke vorm het antwoord vereist. Een vraag over balanstrends heeft een tabel nodig. Een vraag om "deze vergoedingenketen uit te leggen" heeft een graaf nodig. Een vraag om "de uitgaven van dit jaar samen te vatten" heeft een catalogus nodig. Het expliciet inbouwen van deze routeringsbeslissing — zelfs met een klein model — zou de hallucinaties en het verminken van getallen, die de huidige pogingen tot QA voor grootboeken teisteren, drastisch kunnen verminderen.

Het verhaal over de latentie van 217 naar 9,7 minuten is ook van belang in de praktijk. Voor een interactieve Beancount-agent zijn de kosten voor het vooraf indexeren van GraphRAG onbetaalbaar voor veelvuldig bijgewerkte grootboeken; de aanpak van StructRAG tijdens inferentie past beter bij de use-case van een grootboek met veel schrijfacties en weinig zoekopdrachten.

De kanttekening: de structurizer van StructRAG is een grote LLM-aanroep bij elke zoekopdracht. Voor lange grootboekgeschiedenissen kunnen die inferentiekosten aanzienlijk worden. Token-efficiënte structurering — wellicht met een kleiner, fijn-afgesteld model — is een openstaande technische vraag.

Wat je hierna kunt lezen

  • From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Edge et al., 2024, arXiv:2404.16130) — Microsoft GraphRAG gebruikt community-samenvattingen voor globale zoekopdrachten; begrijpen waar de structurering tijdens inferentie van StructRAG het wint van de pre-indexering van GraphRAG is de belangrijkste architecturale afweging om vast te stellen.
  • FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) — test 13 LLM's op XBRL-deponeringen met hiërarchische tabellen; een directe test of de tabel- en catalogusstructuren van StructRAG overdraagbaar zijn naar het gestructureerde deponeringsformaat waar Beancount-grootboeken op lijken.
  • InvestorBench: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent (arXiv:2412.18174, ACL 2025) — evalueert agents op live financiële beslissingen, wat ons in staat stelt te meten of de gestructureerde redenering van StructRAG daadwerkelijk helpt bij de kwaliteit van besluitvorming stroomafwaarts, verder dan alleen de nauwkeurigheid van single-hop QA.