본문으로 건너뛰기

MemGPT: LLM 에이전트를 위한 가상 컨텍스트 관리

· 약 6분
Mike Thrift
Mike Thrift
Marketing Manager

대부분의 LLM 에이전트를 제한하는 제약 사항은 지능이 아니라 메모리입니다. 저는 수년간의 거래 내역을 포함하는 Beancount 원장(ledger)의 관점에서 이를 구체적으로 고민해 왔습니다. 기본 모델의 능력이 아무리 뛰어나더라도 원장 이력이 컨텍스트 창(context window)을 초과하면 에이전트는 망각하기 시작합니다. MemGPT(Packer 외, UC 버클리, 2023)는 운영체제가 수십 년 전에 해결한 솔루션을 차용하여 이 문제에 정면으로 도전합니다.

논문 요약

2026-05-02-memgpt-towards-llms-as-operating-systems

"MemGPT: 운영체제로서의 LLM을 향하여(Towards LLMs as Operating Systems)" (Packer, Wooders, Lin, Fang, Patil, Stoica, Gonzalez; arXiv:2310.08560)는 *가상 컨텍스트 관리(virtual context management)*를 제안합니다. 이는 빠른 RAM과 느린 디스크 사이에서 페이징을 수행하여 거대한 가상 메모리의 환상을 만들어내는 OS의 방식과 의도적인 유사성을 가집니다. LLM의 컨텍스트 창은 희소하고 빠르며 직접 액세스 가능한 RAM의 역할을 합니다. 두 개의 외부 저장소는 디스크 역할을 합니다. 하나는 회상 저장소(recall store) (최근 메시지 이력)이고, 다른 하나는 아카이브 저장소(archival store) (임의의 텍스트를 위한 검색 가능한 장기 데이터베이스)입니다. 에이전트 자체는 계층 간에 데이터를 이동시키는 도구인 명시적 함수 호출을 사용하여 외부 저장소에서 무엇을 읽어오고 컨텍스트에서 무엇을 제거(evict)할지 결정합니다. 시스템은 컨텍스트 용량의 70%에서 축출 경고를 트리거하고 100%에서 플러시(flush)를 강제하며, 정보의 완전한 손실을 피하기 위해 축출된 메시지의 재귀적 요약을 생성합니다.

이 논문은 두 가지 영역에서 MemGPT를 평가합니다. 멀티 세션 대화형 에이전트(Multi-Session Chat 데이터셋)와 모델의 기본 컨텍스트 창을 초과하는 대규모 말뭉치에 대한 문서 분석입니다.

핵심 개념

  • 3단계 메모리 계층: 컨텍스트 내 작업 메모리(빠름, 제한됨), 회상 저장소(최근 메시지, 검색 가능), 아카이브 저장소(장기, 색인됨). 에이전트는 도구 호출을 통해 이 세 곳 모두에 데이터를 씁니다.
  • 심층 메모리 검색(Deep Memory Retrieval, DMR): 과거 여러 세션에 걸친 일관된 회상을 요구하는 평가 과제입니다. GPT-4를 사용했을 때 표준 고정 컨텍스트 베이스라인은 32.1%의 정확도를 기록했으나, MemGPT는 92.5%로 도약했습니다. GPT-4 Turbo 베이스라인의 경우 35.3%에서 93.4%로 향상되었습니다.
  • 중첩 키-값 검색(Nested key-value retrieval): 문서 분석 스트레스 테스트입니다. 표준 GPT-4는 중첩 수준이 3단계에 이르면 정확도가 0%로 떨어지지만, MemGPT와 GPT-4 조합은 반복적인 아카이브 조회를 통해 성능을 유지합니다.
  • 인터럽트를 통한 제어 흐름: 에이전트는 응답하기 전에 메모리 작업을 수행하기 위해 더 많은 시간이 필요할 때 신호를 보냅니다. 이는 OS의 인터럽트와 유사합니다. 이를 통해 모든 것을 단일 추론 단계에 억지로 밀어 넣지 않고도 시스템의 응답성을 유지합니다.
  • 축출 문제(The eviction problem): 컨텍스트가 가득 차면 내용이 요약되고 플러시됩니다. 재귀적 요약은 핵심 내용을 보존하지만 필연적으로 세부 사항을 잃게 됩니다. 논문은 이 트레이드오프를 인정하지만 완전히 정량화하지는 않았습니다.

성과와 한계

DMR 수치는 매우 인상적입니다. Multi-Session Chat 데이터셋에서 MemGPT와 표준 GPT-4 베이스라인 간의 60포인트 정확도 차이는 단순한 오차가 아닙니다. 베이스라인은 0%에서 실패하는 반면 MemGPT는 계속 작동하는 중첩 KV 결과는 수동적인 긴 컨텍스트 노출보다 반복적이고 도구 매개형 검색의 가치가 실질적임을 입증합니다. 이는 Liu 등의 "중간에서 길을 잃다(Lost in the Middle)"(arXiv:2307.03172) 연구 결과와도 연결됩니다. 정보가 물리적으로 컨텍스트 창에 들어맞더라도 모델은 중간에 묻힌 내용에 대해 성능이 저하됩니다. MemGPT는 즉시 필요한 내용만 검색함으로써 이 문제를 우회합니다.

그럼에도 불구하고 평가에는 실제적인 허점이 있습니다. Multi-Session Chat 데이터셋은 엄격하게 제어된 형식의 인간 생성 페르소나 채팅으로 범위가 좁습니다. 이 접근 방식이 더 무질서한 실제 대화나 특정 도메인(재무 보고서, 규제 관련 서신)의 말뭉치에 어떻게 확장될지는 검증되지 않았습니다. 실험의 아카이브 저장소는 단순한 벡터 데이터베이스입니다. 아카이브가 수백만 개의 문서로 늘어날 때 검색 품질이 유지될지는 미지수입니다. 더 근본적으로, 에이전트의 검색 전략은 쿼리의 품질에 달려 있습니다. 장기 과제에서 흔히 발생하는 실패 모드처럼 에이전트가 자신이 무엇을 모르는지 모른다면 올바른 아카이브 조회를 수행하지 못할 것이며, 전체 아키텍처는 고정 컨텍스트 실패 모드와 동일하게 무너질 것입니다.

또한 논문에서 가볍게 다루는 지연 시간 비용도 있습니다. 모든 아카이브 조회는 쿼리 생성을 위한 추가적인 LLM 추론 호출과 벡터 검색을 수반합니다. 수년간의 데이터를 대상으로 일상적인 대조(reconciliation) 작업을 수행하는 Beancount 에이전트의 경우, 한 번의 응답을 위해 수많은 왕복 과정이 필요할 수 있습니다. 논문은 실제 시간(wall-clock) 지연 비교를 보고하지 않았습니다.

후속 연구들은 이러한 비판을 더욱 날카롭게 다듬었습니다. A-MEM(arXiv:2502.12110)은 멀티홉(multi-hop) 작업에서 MemGPT보다 최소 2배 더 나은 성능을 주장하며, MemGPT의 경직된 계층 구조가 더 동적인 메모리 큐레이션보다 성능이 떨어진다고 주장합니다. Mem0 벤치마크(2024-2025)는 일부 설정에서 정확도와 속도 면에서 MemGPT를 능가하는 경쟁 방식들을 보여줍니다. 원저자들은 이후 이 프로젝트를 메모리 통합을 위한 비동기식 "수면 시간 연산(sleep-time compute)"을 갖춘 오픈 소스 에이전트 프레임워크인 Letta(2024년 9월)로 발전시켰는데, 이는 동기식 단일 에이전트 설계에 확장성 한계가 있음을 암시적으로 인정한 것입니다.

금융 AI에서 중요한 이유

소규모 비즈니스의 Beancount 원장은 10년 동안 수만 개의 거래를 축적합니다. 연말 결산, 이상 징후 조사 또는 다년 추세 분석을 맡은 에이전트는 모든 것을 컨텍스트에 담을 수 없습니다. MemGPT의 3계층 설계는 여기에 거의 직접적으로 대입됩니다. 작업 메모리는 검토 중인 현재 거래 배치를 보유하고, 회상 저장소는 최근 세션 컨텍스트(지난번에 대조하던 내용)를 보유하며, 아카이브 저장소는 전체 원장 이력, 분개장(journal entries) 및 이전 이상 징후 보고서를 보유합니다. 메모리 작업을 위한 함수 호출 인터페이스는 에이전트가 이미 쓰기 작업을 위해 필요로 하는 인터페이스와 본질적으로 동일합니다. 이는 새로운 기능 클래스가 아니라 동일한 도구 호출 메커니즘의 새로운 응용일 뿐입니다.

더 깊은 관련성은 프레임워크의 변화에 있습니다. "컨텍스트에 더 많은 것을 넣을 수 있는가?"라고 묻는 대신, MemGPT는 "에이전트가 스스로의 주의(attention)를 관리할 수 있는가?"라고 묻습니다. 금융 분야에서는 이것이 올바른 질문입니다. 세무 조사는 3년 전의 거래에 대한 질문을 던질 수 있습니다. 유능한 인간 회계사는 원본 송장을 찾아내고, 이를 원장과 대조하며, 그해의 정책 컨텍스트를 회상합니다. 이러한 온디맨드 검색 동작이야말로 MemGPT가 우리에게 설계하도록 훈련시키는 바로 그 지점입니다.

솔직한 한계점: MemGPT는 금융 데이터로 평가되지 않았으며, 금융 문서는 페르소나 채팅과는 구조적으로 다릅니다. 조밀한 숫자 데이터, 다통화 거래 및 복식부기 회계 스키마에 대한 검색 품질은 자체적인 벤치마크가 필요할 것입니다.

더 읽어보기

  • Lost in the Middle: How Language Models Use Long Contexts (Liu 외, arXiv:2307.03172) — 더 긴 컨텍스트 창만으로는 문제가 해결되지 않는 이유에 대한 실증적 토대입니다. 모델이 문서 중간의 내용에 주의를 기울이지 못한다는 점이 MemGPT와 같은 검색 기반 접근 방식의 동기가 되었습니다.
  • A-MEM: Agentic Memory for LLM Agents (arXiv:2502.12110) — MemGPT의 경직된 계층 구조를 동적 메모리 큐레이션으로 대체하여 우수한 멀티홉 메모리 성능을 주장하는 2025년 후속 연구로, 반드시 비교해 볼 만한 자료입니다.
  • Gorilla: Large Language Model Connected with Massive APIs (arXiv:2305.15334) — 이 읽기 목록의 다음 순서입니다. 검색 증강 도구 호출 설계는 에이전트가 방대한 API 표면에서 적절한 도구를 선택하는 방법을 다룸으로써 MemGPT의 메모리 관리를 보완합니다.