HippoRAG: LLM을 위한 신경생물학 기반의 장기 기억 장치
NeurIPS 2024에서 발표된 HippoRAG는 인간의 해마가 장기 기억을 인덱싱하는 방식을 모방하여 지식 그래프와 개인화된 페이지랭크(Personalized PageRank, PPR)를 사용하는 검색 증강 생성(RAG) 프레임워크입니다. 필자가 이 논문을 읽는 이유는 이 기술이 해결하려는 핵심 문제, 즉 여러 문서에 분산되어 사실의 연쇄를 통해서만 연결된 정보를 검색하는 문제가 Beancount 에이전트가 다년도의 장부 기록에 대한 질문에 답변할 때 직면하는 문제와 정확히 일치하기 때문입니다.
논문 요약
Jiménez Gutiérrez, Shu, Gu, Yasunaga 및 Su는 표준 RAG의 구조적 실패 모드를 식별했습니다. 만약 질문에 답하는 구절이 질의어 자체와 어떠한 용어도 공유하지 않는다면, 임베딩 기반 검색은 단순히 이를 찾아내지 못할 것입니다. 그들은 이를 경로 탐색(path-finding) 문제라고 부릅니다. 즉, 단순히 문서 벡터에 대해 쿼리 문자열을 매칭하는 것이 아니라 개체(entity)의 사슬을 횡단해야 합니다.
그들의 솔루션인 HippoRAG는 인간 기억의 해마 인덱싱 이론을 반영합니다. LLM(GPT-3.5-turbo)은 오프라인에서 각 구절로부터 개방형 정보 추출(OpenIE) 트리플을 추출하여 명사구 노드와 관계형 엣지로 구성된 스키마리스 지식 그래프를 구축합니다. 밀집 검색 인코더는 의미론적으로 유사한 노드(코사인 유사도 > 0.8) 사이에 유의어 엣지를 추가합니다. 질의 시 시스템은 질의어에서 명명된 개체(entity)를 추출하고, 해당 노드로부터 개인화된 페이지랭크(PPR) 전파를 시작하며, 구성 노드 간의 PPR 확률을 집계하여 구절의 순위를 매깁니다. 노드가 나타나는 구절 수의 역수인 "노드 특이성(node specificity)" 가중치는 그래프 기반의 IDF 역할을 합니다.
핵심 아이디어
- 그래프 기반 IDF: PPR 전파 시 희귀 노드에 더 높은 가중치를 두는 것이 이 시스템을 작동하게 만드는 통찰입니다. 이것이 없다면 "회사"나 "the"와 같은 일반적인 개체가 검색을 지배하게 될 것입니다. 절제 연구(Ablation study)에 따르면 노드 특이성을 제거할 경우 MuSiQue Recall@2가 40.9에서 37.6으로 떨어집니다.
- 단일 단계가 반복 단계보다 우수함: HippoRAG는 반복 없이도 IRCoT(사고 사슬 추론과 결합하여 여러 차례 검색을 실행)와 대등한 재현율을 달성하면서도, 질의 시 비용은 10
30배 저렴하고 속도는 613배 더 빠릅니다. - 2WikiMultiHopQA에서의 대폭적인 향상: Recall@5가 68.2(ColBERTv2)에서 89.1(HippoRAG)로 개선되었습니다. 이 격차는 해당 벤치마크 질문들의 경로 탐색 구조를 정확히 반영합니다.
- MuSiQue에서의 완만한 향상: Recall@5가 49.2에서 51.9로 소폭 개선되었습니다. MuSiQue는 더 어렵습니다. 많은 질문이 그래프 토폴로지로는 완전히 포착할 수 없는 추론을 요구하기 때문입니다.
- HotpotQA 성능 저하: HippoRAG는 HotpotQA에서 ColBERTv2보다 낮은 성능을 보였습니다(Recall@2: 60.5 대 64.7). HotpotQA 질문들은 일반적으로 밀접하게 연관된 두 구절에서 해결 가능하며, 이는 그래프 탐색보다는 임베딩 검색의 강점에 유리합니다.
- OpenIE 품질이 병목 현상임: 절제 연구에 따르면 추출에 Llama-3-70B를 사용했을 때 형식 오류로 인해 오히려 성능이 저하된 반면, Llama-3-8B는 GPT-3.5-turbo와 대등한 성능을 보였습니다. 기존의(off-the-shelf) 추출 방식은 불안정합니다.
유효한 점과 한계점
결과는 실제적입니다. 멀티홉 체인을 중심으로 설계된 2WikiMultiHopQA에서 그래프 탐색은 밀집 검색을 큰 차이로 능가합니다. PPR 접근 방식은 우아합니다. 질의 개체에서 전파를 시작하여 그래프가 주변 환경을 채우도록 하는 방식은 질의와 근거 구절 사이의 분포 불일치를 처리하는 원칙적인 방법입니다.
하지만 신경생물학적 프레임 워크는 덜 설득력 있게 느껴집니다. 이 논문은 페이지랭크와 해마 CA3 활동 사이의 유사성을 끌어내며, 인간의 단어 회상 확률과 페이지랭크 점수 사이의 상관관계를 발견한 인지 과학 연구를 인용합니다. 이는 해마 생리학에서 도출된 것이 아니라 심리언어학의 상관관계 관찰일 뿐입니다. PPR은 해마 생리학을 바탕으로 설계되지 않았습니다. 이를 "신경생물학적 영감을 받은" 것이라고 부르는 것은 메커니즘이라기보다 브랜딩에 가깝습니다.
효율성 주장도 면밀히 검토할 필요가 있습니다. 단일 단계 HippoRAG는 온라인에서 IRCoT보다 10~30배 저렴하지만, 오프라인 인덱싱 비용(모든 문서에서 OpenIE 트리플을 추출하기 위해 GPT-3.5-turbo를 실행하는 비용)은 선행적이며 상당합니다. 자주 변경되는 말뭉치의 경우 업데이트 시마다 이 비용을 다시 지불해야 합니다. 논문에서는 총 인덱싱 비용을 보고하지 않았습니다.
마지막으로, 벤치마크는 중간 규모입니다. 6천~1.1만 개의 구절과 10만 개 미만의 그래프 노드 규모입니다. 저자들은 확장성을 미해결 과제로 명시하고 있습니다. 수십 년에 걸친 수십만 개의 장부 항목에 대해 PPR이 유지될지는 검증되지 않았습니다.
금융 AI에서 이것이 중요한 이유
Beancount 장부는 계정 계층 구조, 거래 참조, 규칙 교차 참조, 예산 할당과 같은 사실들의 사슬입니다. "2022년 지출 중 송장 #INV-2019-0042와 동일한 예산 카테고리에 속하 는 것은 무엇인가?"와 같은 질문은 계정, 거래, 카테고리 그래프를 횡단해야 하며, 이는 표준 RAG가 실패하는 정확한 경로 탐색 작업입니다.
HippoRAG의 인덱싱 설계는 자연스럽게 매핑됩니다. 장부 항목에서 엔터티-관계 트리플(계정, 금액, 거래처, 규칙)을 추출하고 그래프를 구축한 다음, 질의 개체에서 시작하는 PPR을 실행합니다. 노드 특이성 가중치는 "비용"이나 "자산"과 같은 일반적인 노드의 가중치를 낮추고 희귀한 공급업체 이름이나 계정 코드를 높여줄 것이며, 이는 정확히 우리가 원하는 바입니다.
Beancount에서의 실질적인 장애물은 증분 업데이트 비용입니다. 새로운 거래가 추가될 때마다 노드와 엣지가 추가됩니다. 새 항목에 대해 OpenIE 추출을 다시 실행하는 것은 가능하지만, PPR의 복잡성은 그래프 크기에 따라 확장됩니다. 후속 논문인 HippoRAG 2(arXiv:2502.14802)는 연상 작업에서 7% 더 향상되었다고 주장하지만, 확장성 문제는 여전히 남아 있습니다. 수백만 건의 거래가 있는 장부의 경우, 이 접근 방식을 도입하기 전에 해결해야 할 엔지니어링 문제입니다.
함께 읽어볼 만한 자료
- GraphRAG (Edge et al., arXiv:2404.16130) — PPR을 실행하는 대신 그래프 커뮤니티를 요약하는 Microsoft의 대안입니다. 광범위한 주제 질문에 더 적합하며, HippoRAG의 엔터티 체인 접근 방식과 유용한 대조를 이룹니다.
- RAPTOR (Sarthi et al., arXiv:2401.18059) — RAG를 위한 재귀적 요약 트리 구조입니다. HippoRAG는 멀티홉 벤치마크에서 이를 능가하지만, RAPTOR는 그래프 탐색이 적절한 프레임워크가 아닌 장거리 요약 작업에서 더 나은 성능을 보일 수 있습니다.
- IRCoT (Trivedi et al., arXiv:2212.10509) — HippoRAG가 더 낮은 비용으로 대등한 성능을 낼 수 있다고 주장하는 반복 검색 베이스라인입니다. 10~30배 효율성 주장이 실제로 무엇과 비교하고 있는지 이해하기 위해 읽어볼 가치가 있습니다.
