MemGPT: Virtueel contextbeheer voor LLM-agenten
De beperking die de meeste LLM-agenten belemmert, is niet intelligentie — het is geheugen. Ik heb hier concreet over nagedacht in de context van Beancount-grootboeken die jaren aan transacties beslaan: hoe bekwaam het onderliggende model ook is, zodra de geschiedenis van het grootboek het contextvenster overschrijdt, begint de agent te vergeten. MemGPT (Packer et al., UC Berkeley, 2023) pakt dit probleem direct aan door een oplossing te lenen die besturingssystemen decennia geleden al hebben opgelost.
Het artikel
"MemGPT: Towards LLMs as Operating Systems" (Packer, Wooders, Lin, Fang, Patil, Stoica, Gonzalez; arXiv:2310.08560) stelt virtueel contextbeheer voor — een bewuste analogie met hoe OS'en de illusie van een groot virtueel geheugen creëren door te pagen tussen snel RAM en een trage schijf. Het contextvenster van de LLM speelt de rol van RAM: schaars, snel en direct toegankelijk. Twee externe opslagplaatsen spelen de rol van schijf: een recall-opslag (recente berichtgeschiedenis) en een archiefopslag (een doorzoekbare langetermijndatabase voor willekeurige tekst). De agent beslist zelf wat er vanuit de externe opslag wordt ingelezen en wat er uit de context wordt verwijderd (eviction), met behulp van expliciete functieaanroepen — tools die data tussen de niveaus verplaatsen. Het systeem triggert een verwijderingswaarschuwing bij 70% contextcapaciteit en forceert een flush bij 100%, waarbij een recursieve samenvatting van de verwijderde berichten wordt gegenereerd om totaal informatieverlies te voorkomen.
Het artikel evalueert MemGPT op twee domeinen: conversatie-agenten voor meerdere sessies (de Multi-Session Chat dataset) en documentanalyse over grote corpora die het natuurlijke contextvenster van het model overschrijden.
Belangrijkste ideeën
- Drie geheugenniveaus: in-context werkgeheugen (snel, beperkt), recall-opslag (recente berichten, doorzoekbaar) en archiefopslag (langetermijn, geïndexeerd). De agent schrijft naar alle drie via tool-aanroepen.
- Deep Memory Retrieval (DMR): de evaluatietaak die consistent geheugen vereist over meerdere eerdere sessies. Met GPT-4 behaalt de standaard baseline met vaste context een nauwkeurigheid van 32,1%; MemGPT springt naar 92,5%. GPT-4 Turbo baseline: 35,3% → 93,4%.
- Geneste key-value retrieval: de stresstest voor documentanalyse. Standaard GPT-4 behaalt 0% nauwkeurigheid bij drie niveaus van nesting; MemGPT met GPT-4 behoudt prestaties door iteratieve zoekopdrachten in het archief uit te voeren.
- Control flow via interrupts: de agent geeft een signaal wanneer hij meer tijd nodig heeft (om geheugenoperaties uit te voeren) voordat hij antwoordt, analoog aan een OS-interrupt. Dit houdt het systeem responsief zonder alles in een enkele inferentie-pass te dwingen.
- Het verwijderingsprobleem: wanneer de context vol is, wordt de inhoud samengevat en gewist (flushed). Recursieve samenvatting behoudt de essentie, maar verliest onvermijdelijk details — een afweging die het artikel erkent maar niet volledig kwantificeert.
Wat standhoudt — en wat niet
De DMR-cijfers zijn opvallend: een nauwkeurigheidsverschil van 60 punten tussen MemGPT en een standaard GPT-4 baseline op de Multi-Session Chat dataset is geen toeval. Het geneste KV-resultaat — waarbij baselines falen op 0% terwijl MemGPT blijft functioneren — toont iets wezenlijks aan over de waarde van iteratieve, via tools bemiddelde retrieval versus passieve blootstelling aan een lange context. Dit sluit aan bij de bevinding "Lost in the Middle" van Liu et al. (arXiv:2307.03172): zelfs wanneer informatie fysiek in het contextvenster past, gaan de prestaties van modellen achteruit voor inhoud die in het midden begraven ligt. MemGPT omzeilt dit door alleen op te halen wat onmiddellijk nodig is.
Dat gezegd hebbende, de evaluatie vertoont duidelijke hiaten. De Multi-Session Chat dataset is beperkt — door mensen gegenereerde persona-chats met strikt gecontroleerde formaten. Hoe de aanpak schaalt naar rommeligere gesprekken in de echte wereld of domeinspecifieke corpora (financiële deponeringen, correspondentie met toezichthouders) is ongetest. De archiefopslag in de experimenten is een eenvoudige vectordatabase; of de kwaliteit van de retrieval hoog blijft wanneer het archief uitgroeit tot miljoenen documenten, blijft open. Fundameteeler nog: de retrieval-strategie van de agent is slechts zo goed als zijn zoekopdrachten. Als de agent niet weet wat hij niet weet — een veelvoorkomende foutmodus in taken met een lange horizon — zal hij nooit de juiste archiefzoekopdracht uitvoeren, en stort de hele architectuur sierlijk in naar dezelfde foutmodus als de vaste context.
Er zijn ook latency-kosten die het artikel lichtvaardig behandelt. Elke archiefzoekopdracht is een extra LLM-inferentie-aanroep (om de zoekopdracht te genereren) plus een vectorzoekopdracht. Voor een Beancount-agent die een routinematige reconciliatie uitvoert over jaren aan data, kan dit oplopen tot vele round-trips per antwoord. Het artikel rapporteert geen vergelijkingen van de werkelijke verwerkingstijd (wall-clock latency).
Latere publicaties hebben deze kritiek aangescherpt. A-MEM (arXiv:2502.12110) claimt minstens 2x betere prestaties dan MemGPT op multi-hop taken, met het argument dat de rigide niveaustructuur van MemGPT ondermaats presteert vergeleken met meer dynamische geheugencuratie. Mem0-benchmarks (2024-2025) laten zien dat concurrerende benaderingen MemGPT overtreffen op het gebied van nauwkeurigheid en snelheid in sommige omgevingen. De oorspronkelijke auteurs hebben het project inmiddels laten evolueren naar Letta (september 2024), een open-source agent-framework met asynchrone "sleep-time compute" voor geheugenconsolidatie — een impliciete erkenning dat het synchrone ontwerp met een enkele agent schaalbeperkingen heeft.
Waarom dit belangrijk is voor financiële AI
Een Beancount-grootboek voor een klein bedrijf verzamelt in een decennium tienduizenden transacties. Een agent die belast is met de jaarafsluiting, anomaliedetectie of trendanalyse over meerdere jaren, kan niet alles in de context kwijt. Het drielagige ontwerp van MemGPT is bijna direct vertaalbaar: het werkgeheugen bevat de huidige transactiebatch die wordt beoordeeld; de recall-opslag bevat de context van recente sessies (waarmee we de vorige keer bezig waren met reconciliëren); de archiefopslag bevat de volledige grootboekhistorie, dagboekposten en eerdere anomalierapporten. De interface met functieaanroepen voor geheugenoperaties is in wezen dezelfde interface die de agent al nodig heeft voor schrijfbewerkingen — dit is geen nieuwe klasse van mogelijkheden, maar een nieuwe toepassing van hetzelfde mechanisme voor tool-calling.
De diepere relevantie ligt in de verschuiving van het kader: in plaats van te vragen "kunnen we meer in de context passen?", vraagt MemGPT "kan de agent zijn eigen aandacht beheren?". Voor de financiële sector is dat de juiste vraag. Een belastingcontrole kan een vraag oproepen over een transactie van drie jaar geleden. Een bekwame menselijke accountant haalt de originele factuur op, controleert deze tegen het grootboek en herinnert zich de beleidscontext van dat jaar. Dat gedrag van retrieval-on-demand is precies waar MemGPT ons op voorbereidt.
De eerlijke kanttekening: MemGPT is niet geëvalueerd op financiële gegevens, en financiële documenten zijn structureel anders dan persona-chats. De kwaliteit van retrieval over dichte numerieke gegevens, transacties in meerdere valuta en dubbele boekhoudschema's zal zijn eigen benchmark nodig hebben.
Wat nu te lezen
- Lost in the Middle: How Language Models Use Long Contexts (Liu et al., arXiv:2307.03172) — de empirische basis voor de reden waarom langere contextvensters alleen het probleem niet oplossen; modellen slagen er niet in aandacht te besteden aan inhoud in het midden van een document, wat motiveert voor retrieval-gebaseerde benaderingen zoals MemGPT.
- A-MEM: Agentic Memory for LLM Agents (arXiv:2502.12110) — een vervolg uit 2025 dat superieure multi-hop geheugenprestaties claimt door de rigide niveaustructuur van MemGPT te vervangen door dynamische geheugencuratie; een noodzakelijk vergelijkingspunt.
- Gorilla: Large Language Model Connected with Massive APIs (arXiv:2305.15334) — de volgende op deze leeslijst; het ontwerp voor retrieval-augmented tool-calling daar is een aanvulling op het geheugenbeheer van MemGPT door aan te pakken hoe agenten de juiste tool selecteren uit een groot API-oppervlak.
