StructRAG (ICLR 2025): Výber správnej štruktúry dokumentu poráža GraphRAG o 28 bodov
Bežnou sťažnosťou na RAG v produkcii je, že vyhľadávanie je tupý nástroj v prípadoch, keď sú relevantné fakty rozptýlené v desiatkach dokumentov v nekompatibilných formátoch. StructRAG (Li et al., ICLR 2025) na to ide priamo a konvertuje vyhľadaný text do štruktúry vhodnej pre danú úlohu — tabuľky, grafu, katalógu, algoritmu alebo prostého fragmentu (chunk) — ešte pred samotným uvažovaním nad ním. Je motivovaný tvrdením kognitívnej teórie: že ľudia pri riešení zložitých úloh prirodzene pretvárajú surové informácie do štruktúrovaných reprezentácií. Či už je tento rámec skôr metaforou než mechanizmom, empirické čísla stoja za dôkladné preskúmanie.
Práca
StructRAG navrhuje pipeline pre čas inferencie s tromi modulmi. Po prvé, hybridný smerovač štruktúr (Qwen2-7B-Instruct, doladený pomocou DPO na 900 syntetických preferenčných pároch) predpovedá, ktorý z piatich typov štruktúr najlepšie vyhovuje prichádzajúcej otázke a jej dokumentom. Po druhé, štrukturalizátor rozptýlených znalostí (Qwen2-72B-Instruct) prepíše vyhľadané fragmenty do zvoleného formátu. Po tretie, využívateľ štruktúrovaných znalostí rozloží otázku na podotázky, vyhľadá relevantné štruktúrované fragmenty a vygeneruje konečnú odpoveď. Týchto päť typov štruktúr je: tabuľka (štatistické porovnania), graf (reťazce s viacerými skokmi, kódované ako trojice hlava–vzťah–chvost), algoritmus (plánovacie úlohy, zapísané ako pseudokód), katalóg (sumarizácia, hierarchické číslovanie) a fragment (jednoduchý jeden skok, predvolená rezerva pre RAG).
Autori vykonávajú vyhodnotenie predovšetkým na benchmarku Loong (EMNLP 2024 Oral), čo je QA benchmark nad viacerými dokumentmi zahŕňajúci finančné správy, právne prípady a akademické práce s vstupmi v rozsahu od 10 tisíc do 250 tisíc tokenov, pokrývajúci štyri typy úloh: lokalizácia dôležitých bodov (Spotlight Locating), porovnávanie, zhlukovanie a reťazec uvažovania.
Kľúčové myšlienky
- Smerovač vytrénovaný pomocou DPO dosahuje 94,38 % presnosť pri výbere typu štruktúry v porovnaní s 50,04 % pri zero-shot prístupe s Qwen2-72B-Instruct — rozhodnutie o smerovaní je jediným najdôležitejším komponentom. Odstránenie smerovača znižuje celkové skóre LLM zo 60,38 na 45,33.
- Pri najťažšej úrovni dĺžky dokumentu (200 tisíc – 250 tisíc tokenov) dosahuje StructRAG skóre 51,42 oproti 28,92 pri Long-Context prístupe a 29,29 pri RAG — čo je ~22-bodový rozdiel, ktorý sa s rastúcim kontextom zväčšuje. Štandardný prístup "proste tam všetko natlač" sa prudko zhoršuje, zatiaľ čo StructRAG degraduje plynulejšie.
- GraphRAG, napriek tomu, že tiež zavádza štruktúru, dosahuje na Loong celkové LLM skóre 40,82 oproti 69,43 v prípade StructRAG a trvá mu 217,1 minúty na dopyt oproti 9,7 minútam pri StructRAG. Budovanie globálneho grafu znalostí vopred je pomalšie a menej presné ako výber správneho formátu na požiadanie.
- Na prepisoch podcastov (otvorená sumarizácia) dosahuje StructRAG 95,75 % mieru víťazstva v párovom porovnaní nad Long-Context prístupom, čo naznačuje, že štruktúrovaná syntéza prekonáva prístupy s plným kontextom aj pri menej štruktúrovanom zdrojovom materiáli.
- Skóre presnej zhody (EM) konzistentne zaostávajú za skóre hodnotenými LLM, pretože štrukturalizácia mení povrchové znenie (napr. „1 308 463 $“ sa v bunke tabuľky zmení na „1308463“), čo vytvára systematický problém s nezhodou tokenov, ktorý penalizuje automatizované vyhodnocovanie.
Čo obstojí — a čo nie
Hlavný výsledok je reálny a príbeh ablácie je jasný: na smerovaní záleží najviac, nasleduje štrukturalizácia a potom využitie. Zlepšenie pri dlhých dokumentoch je najsilnejším zistením — 22 bodov pri 200 tisíc tokenoch nie je náhoda.
Napriek tomu mám tri výhrady. Po prvé, pokrytie benchmarkov je slabé. StructRAG uvádza výsledky len pre Loong a prepisy podcastov. Štandardné multi-hop benchmarky (HotpotQA, 2WikiMultiHopQA, MuSiQue, NQ) nápadne chýba, čo znemožňuje posúdiť, ako si StructRAG stojí v porovnaní s veľkým množstvom predchádzajúceho výskumu vyhľadávania na týchto etablovaných dátach. Recenzenti v ICLR to pravdepodobne namietali; práca v publikovanej verzii neponúka priamu odpove ď.
Po druhé, hodnotiacim modelom je GPT-4. Hodnotenie pomocou LLM-ako-sudcu je náchylné na zaujatosť voči dĺžke a štylistické preferencie, ktoré môžu uprednostňovať výstupy z rovnakého procesu štrukturalizácie, najmä ak bol sudca trénovaný na podobnom štruktúrovanom texte. Metrika EM je nápravou, ale autori ju interpretujú skôr ako obmedzenie metriky než ako dôkaz problému metódy.
Po tretie, StructRAG je testovaný s veľkým základným modelom (Qwen2-72B-Instruct pre štrukturalizátor a využívateľa). Nie je jasné, aká časť zisku pochádza zo smerovania oproti jednoduchému volaniu výkonného modelu na prepísanie a sumarizáciu. Ablácia voči baseline modelu rovnakej veľkosti s priamou odpoveďou by to vyriešila, ale nie je prezentovaná.
Prečo na tom záleží pre finančnú AI
Hlavné knihy Beancount sú kánonickým príkladom problému „rozptýlených informácií“. Jediná otázka týkajúca sa odsúhlasenia — „prečo klesli moje čisté aktíva v 3. štvrťroku?“ — môže vyžadovať prečítanie záznamov transakcií z troch účtov, krížovú kontrolu výkazu súvahy a sledovanie viacstupňového reťazca opráv. Tieto sa takmer jedna k jednej mapujú na typy štruktúr StructRAG: tabuľky pre porovnanie zostatkov, grafy pre transakčné reťazce, katalógy pre súhrny období.
Poznatok o smerovaní je obzvlášť použiteľný. Agent Beancount zameraný na dopyty by nemal vždy len sypať fragmenty do kontextu; mal by sa najprv opýtať, aký tvar odpoveď vyžaduje. Otázka na trend zostatku potrebuje tabuľku. Otázka „vysvetli tento reťazec refundácií“ potrebuje graf. Otázka „zhrň tohtoročné výdavky“ potrebuje katalóg. Explicitné zapojenie tohto rozhodnutia o smerovaní — dokonca aj s malým modelom — by mohlo dramaticky znížiť halucinácie a komolenie čísel, ktoré trápia súčasné pokusy o QA nad účtovnými knihami.
Príbeh o latencii 217 verzus 9,7 minúty je dôležitý aj v praxi. Pre interaktívneho agenta Beancount sú náklady na predbežnú indexáciu GraphRAG pre často aktualizované účtovné knihy neúnosné; prístup StructRAG v čase inferencie lepšie vyhovuje prípadu použitia účtovnej knihy s častým zápisom a občasnými dopytmi.
Varovanie: Štrukturalizátor StructRAG je volanie veľkého LLM pri každom dopyte. Pri dlhých históriách účtovných kníh by tieto náklady na inferenciu mohli byť významné. Tokenovo efektívna štrukturalizácia — možno pomocou menšieho vyladeného modelu — zostáva otvorenou inžinierskou otázkou.
Čo si prečítať ďalej
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Edge et al., 2024, arXiv:2404.16130) — Microsoft GraphRAG využíva komunitné súhrny pre globálne dopyty; pochopenie toho, kde štrukturalizácia v čase inferencie u StructRAG poráža predbežnú indexáciu GraphRAG, je kľúčovým architektonickým kompromisom, ktorý treba určiť.
- FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) — testuje 13 LLM na podaniach XBRL s hierarchickými tabuľkami; priamy test toho, či sa tabuľkové a katalógové štruktúry StructRAG prenášajú do formátu štruktúrovaných podaní, ktorým sa hlavné knihy Beancount podobajú.
- InvestorBench: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent (arXiv:2412.18174, ACL 2025) — vyhodnocuje agentov pri živých finančných rozhodnutiach, čo by nám umožnilo zmerať, či štruktúrované uvažovanie StructRAG skutočne pomáha kvalite následných rozhodnutí nad rámec presnosti QA s jedným skokom.
