StructRAG (ICLR 2025): 적절한 문서 구조 선택으로 GraphRAG보다 28점 높은 성능 달성

2026년 6월 1일 · 약 6분

Mike Thrift

Marketing Manager

실무에서 RAG에 대한 주된 불만은 관련 사실이 형식이 다른 수십 개의 문서에 흩어져 있을 때 검색 기능이 너무 단순한 도구에 불과하다는 점입니다. StructRAG (Li et al., ICLR 2025)는 검색된 텍스트를 추론하기 전 표, 그래프, 카탈로그, 알고리즘 또는 일반 청크와 같은 태스크 적합 구조로 변환하여 이 문제를 직접 해결하고자 합니다. 이는 인간이 복잡한 추론 태스크를 수행할 때 가공되지 않은 정보를 자연스럽게 구조화된 표현으로 재구성한다는 인지 이론적 주장에 기반합니다. 이러한 프레이밍이 메커니즘이라기보다는 메타포에 가깝더라도, 실증적인 수치는 자세히 살펴볼 가치가 있습니다.

논문 소개

2026-06-01-structrag-inference-time-hybrid-information-structurization %3A%20%EC%A0%81%EC%A0%88%ED%95%9C%20%EB%AC%B8%EC%84%9C%20%EA%B5%AC%EC%A1%B0%20%EC%84%A0%ED%83%9D%EC%9C%BC%EB%A1%9C%20GraphRAG%EB%B3%B4%EB%8B%A4%2028%EC%A0%90%20%EB%86%92%EC%9D%80%20%EC%84%B1%EB%8A%A5%20%EB%8B%AC%EC%84%B1)

StructRAG는 세 개의 모듈로 구성된 추론 시점 파이프라인을 제안합니다. 첫째, 하이브리드 구조 라우터(900개의 합성 선호도 쌍으로 DPO 미세 조정된 Qwen2-7B-Instruct)가 들어오는 질문과 문서에 가장 잘 맞는 다섯 가지 구조 유형 중 하나를 예측합니다. 둘째, 분산 지식 구조화 도구(Qwen2-72B-Instruct)가 검색된 청크를 선택된 형식으로 재작성합니다. 셋째, 구조화 지식 활용 도구가 질문을 하위 질문으로 분해하고, 관련 구조화된 조각을 검색하여 최종 답변을 생성합니다. 다섯 가지 구조 유형은 다음과 같습니다: 표(통계적 비교), 그래프(헤드-관계-테일 트리플로 인코딩된 멀티홉 체인), 알고리즘(의사 코드로 작성된 계획 태스크), 카탈로그(요약, 계층적 번호 매기기), 그리고 청크(단순 싱글홉, 기본 RAG 폴백)입니다.

저자들은 주로 Loong 벤치마크(EMNLP 2024 Oral)에서 평가를 진행했습니다. 이는 재무 보고서, 법률 사례, 학술 논문을 포괄하는 다중 문서 질의응답 벤치마크로, 입력 데이터는 10K에서 250K 토큰에 이르며, 주요 위치 파악(Spotlight Locating), 비교, 클러스터링, 추론 체인 등 네 가지 태스크 유형을 다룹니다.

핵심 개념

DPO로 학습된 라우터는 구조 유형 선택에서 94.38%의 정확도를 달성했습니다. 이는 Qwen2-72B-Instruct의 제로샷 정확도인 50.04%와 대비되는 수치로, 라우팅 결정이 가장 중요한 구성 요소임을 보여줍니다. 라우터를 제거하면 전체 LLM 점수가 60.38에서 45.33으로 떨어집니다.
가장 난도가 높은 문서 길이 구간(200K~250K 토큰)에서 StructRAG는 51.42점을 기록했습니다. 이는 롱 컨텍스트(Long-Context)의 28.92점, 일반 RAG의 29.29점과 비교했을 때 약 22점의 격차를 보이며, 컨텍스트가 길어질수록 그 격차는 더 벌어집니다. 표준적인 "모든 데이터를 밀어넣는" 방식은 성능이 급격히 저하되는 반면, StructRAG는 비교적 안정적인 성능 저하를 보입니다.
GraphRAG는 구조를 도입함에도 불구하고 Loong에서 전체 LLM 점수 40.82점을 기록하여 StructRAG의 69.43점에 못 미쳤으며, 쿼리당 실행 시간도 StructRAG의 9.7분 대비 217.1분이 소요되었습니다. 전역 지식 그래프를 미리 구축하는 것은 필요할 때 적절한 형식을 선택하는 것보다 속도와 정확도 면에서 모두 불리했습니다.
팟캐스트 스크립트(개방형 요약)에서 StructRAG는 롱 컨텍스트 대비 95.75%의 쌍별 승률을 기록했습니다. 이는 구조화되지 않은 소스 자료에서도 구조화된 종합이 전체 컨텍스트 접근 방식보다 우수함을 시사합니다.
정확도 일치(EM) 점수는 LLM 평가 점수보다 지속적으로 낮게 나타났는데, 이는 구조화 과정에서 표면적인 문구가 변경되기 때문입니다(예: "$1,308,463"이 표 셀에서 "138463"으로 변환). 이는 자동화된 평가에서 불이익을 주는 계통적인 토큰 불일치 문제를 야기합니다.

평가 및 한계점

핵심 결과는 실질적이며 절제 연구(ablation study) 결과도 명확합니다. 라우팅이 가장 중요하고, 그다음이 구조화, 활용 순입니다. 긴 문서 길이에 대한 성능 향상이 가장 강력한 발견이며, 200K 토큰에서의 22점 차이는 단순한 오차가 아닙니다.

그럼에도 불구하고 세 가지 의구심이 듭니다. 첫째, 벤치마크 범위가 좁습니다. StructRAG는 Loong과 팟캐스트 스크립트 결과만 보고했습니다. 표준 멀티홉 벤치마크(HotpotQA, 2WikiMultiHopQA, MuSiQue, NQ)가 빠져 있어, 기존의 방대한 검색 연구 결과와 StructRAG를 비교하기 어렵습니다. ICLR 리뷰어들도 이 점을 지적했을 것으로 보이나, 출판된 논문 버전에는 직접적인 답변이 없습니다.

둘째, 평가 모델이 GPT-4입니다. 판사로서의 LLM(LLM-as-judge) 채점 방식은 답변 길이에 대한 편향이나 스타일 선호도에 취약하며, 특히 판사가 유사한 구조화된 텍스트로 학습된 경우 동일한 구조화 과정을 거친 결과물을 선호할 수 있습니다. EM 지표가 이를 보완할 수 있지만, 저자들은 이를 방법론의 문제라기보다는 지표의 한계로 규정하고 있습니다.

셋째, StructRAG는 거대한 백본(구조화 도구 및 활용 도구를 위해 Qwen2-72B-Instruct 사용)으로 테스트되었습니다. 성능 향상의 어느 정도가 라우팅 덕분인지, 아니면 단순히 강력한 모델을 사용하여 재작성 및 요약을 했기 때문인지 불분명합니다. 동일한 크기의 직접 답변 베이스라인과의 절제 연구가 있었다면 이 문제가 해결되었겠지만, 제시되지 않았습니다.

금융 AI에서 중요한 이유

Beancount 장부는 "분산된 정보" 문제의 전형적인 사례입니다. 단일 대조 질문인 "왜 3분기에 순자산이 감소했는가?"에 답하려면 세 개 계정의 거래 내역을 읽고, 재무상태표 보고서를 교차 참조하며, 다단계 수정 체인을 추적해야 할 수 있습니다. 이는 StructRAG의 구조 유형과 거의 일대일로 매칭됩니다: 잔액 비교를 위한 표, 거래 체인을 위한 그래프, 기간 요약을 위한 카탈로그입니다.

라우팅에 대한 통찰은 특히 적용 가능성이 높습니다. 쿼리 중심의 Beancount 에이전트는 항상 청크를 컨텍스트에 쏟아붓는 대신, 답변에 어떤 형태가 필요한지 먼저 자문해야 합니다. 잔액 추세 질문에는 표가 필요하고, "환급 체인을 설명하라"는 질문에는 그래프가 필요하며, "올해 지출 요약" 질문에는 카탈로그가 필요합니다. 소형 모델을 사용하더라도 이 라우팅 결정을 명시적으로 연결하면 현재 장부 QA 시도들을 괴롭히는 환각(hallucination)과 수치 왜곡 문제를 획기적으로 줄일 수 있습니다.

실무에서는 217분 대 9.7분이라는 지연 시간 차이도 중요합니다. 대화형 Beancount 에이전트의 경우, 자주 업데이트되는 장부에 대해 GraphRAG의 사전 인덱싱 비용은 감당하기 어렵습니다. StructRAG의 추론 시점 접근 방식은 쓰기 작업이 잦고 조회가 드문 장부 활용 사례에 더 적합합니다.

주의할 점: StructRAG의 구조화 도구는 매 쿼리마다 대규모 LLM을 호출합니다. 장부 내역이 길 경우 추론 비용이 상당할 수 있습니다. 토큰 효율적인 구조화(예: 미세 조정된 소형 모델 활용)는 향후 해결해야 할 엔지니어링 과제입니다.

더 읽어볼 거리

From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Edge et al., 2024, arXiv:2404.16130) — Microsoft GraphRAG는 전역 쿼리에 커뮤니티 요약을 사용합니다. StructRAG의 추론 시점 구조화가 GraphRAG의 사전 인덱싱보다 우수한 지점이 어디인지 파악하는 것이 아키텍처 설계의 핵심입니다.
FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark (arXiv:2510.08886) — 계층적 표가 포함된 XBRL 공시 자료에서 13개 LLM을 테스트합니다. StructRAG의 표 및 카탈로그 구조가 Beancount 장부와 유사한 구조화된 공시 형식으로 잘 전이되는지 직접 확인할 수 있는 테스트입니다.
InvestorBench: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent (arXiv:2412.18174, ACL 2025) — 실제 금융 의사 결정에서 에이전트를 평가합니다. 이를 통해 StructRAG의 구조화된 추론이 단순한 질의응답 정확도를 넘어 실제 의사 결정 품질에 도움이 되는지 측정할 수 있습니다.

Share on Twitter Follow @beancount_io

StructRAG (ICLR 2025): 적절한 문서 구조 선택으로 GraphRAG보다 28점 높은 성능 달성

논문 소개

핵심 개념

평가 및 한계점

금융 AI에서 중요한 이유

더 읽어볼 거리

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 소개​

핵심 개념​

평가 및 한계점​

금융 AI에서 중요한 이유​

더 읽어볼 거리​

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 소개

핵심 개념

평가 및 한계점

금융 AI에서 중요한 이유

더 읽어볼 거리