Zum Hauptinhalt springen

MemGPT: Virtuelles Kontextmanagement für LLM-Agenten

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Die Einschränkung, die die meisten LLM-Agenten limitiert, ist nicht die Intelligenz – es ist das Gedächtnis. Ich habe darüber konkret im Kontext von Beancount-Ledgern nachgedacht, die Transaktionen über Jahre hinweg umfassen: Egal wie leistungsfähig das zugrunde liegende Modell ist, sobald die Ledger-Historie das Kontextfenster überschreitet, beginnt der Agent zu vergessen. MemGPT (Packer et al., UC Berkeley, 2023) greift dieses Problem direkt an, indem es eine Lösung adaptiert, die Betriebssysteme schon vor Jahrzehnten gelöst haben.

Das Paper

2026-05-02-memgpt-towards-llms-as-operating-systems

„MemGPT: Towards LLMs as Operating Systems“ (Packer, Wooders, Lin, Fang, Patil, Stoica, Gonzalez; arXiv:2310.08560) schlägt ein virtuelles Kontextmanagement vor – eine bewusste Analogie dazu, wie Betriebssysteme durch Paging zwischen schnellem RAM und langsamer Festplatte die Illusion eines großen virtuellen Speichers erzeugen. Das Kontextfenster des LLM übernimmt dabei die Rolle des RAM: knapp, schnell, direkt zugänglich. Zwei externe Speicher fungieren als Festplatte: ein Recall-Speicher (kürzliche Nachrichtenverläufe) und ein Archivspeicher (eine durchsuchbare Langzeitdatenbank für beliebige Texte). Der Agent entscheidet selbst, was er aus dem externen Speicher einliest und was er aus dem Kontext verdrängt (evict), indem er explizite Funktionsaufrufe nutzt – Werkzeuge, die Daten zwischen den Ebenen verschieben. Das System löst bei 70 % Kontextauslastung eine Verdrängungswarnung aus und erzwingt bei 100 % einen Flush, wobei eine rekursive Zusammenfassung der verdrängten Nachrichten erstellt wird, um totalen Informationsverlust zu vermeiden.

Das Paper evaluiert MemGPT in zwei Bereichen: Multi-Session-Konversationsagenten (der Multi-Session Chat-Datensatz) und Dokumentenanalyse über große Korpora, die das native Kontextfenster des Modells überschreiten.

Kernideen

  • Drei Speicherebenen: In-Context-Arbeitsspeicher (schnell, begrenzt), Recall-Speicher (kürzliche Nachrichten, durchsuchbar) und Archivspeicher (langfristig, indiziert). Der Agent schreibt über Tool-Aufrufe in alle drei Ebenen.
  • Deep Memory Retrieval (DMR): Die Evaluierungsaufgabe, die einen konsistenten Rückruf über mehrere vergangene Sitzungen hinweg erfordert. Mit GPT-4 erreicht die standardmäßige Fixed-Context-Baseline 32,1 % Genauigkeit; MemGPT steigert diesen Wert auf 92,5 %. GPT-4 Turbo Baseline: 35,3 % → 93,4 %.
  • Verschachteltes Key-Value-Retrieval: Der Belastungstest für die Dokumentenanalyse. Standard-GPT-4 erreicht bei drei Verschachtelungsebenen 0 % Genauigkeit; MemGPT mit GPT-4 hält die Leistung aufrecht, indem es iterative Archivabfragen durchführt.
  • Kontrollfluss über Interrupts: Der Agent signalisiert, wenn er mehr Zeit benötigt (um Speicheroperationen auszuführen), bevor er antwortet – analog zu einem Betriebssystem-Interrupt. Dies hält das System reaktionsfähig, ohne alles in einen einzigen Inferenzdurchlauf erzwingen zu müssen.
  • Das Verdrängungsproblem (Eviction Problem): Wenn der Kontext voll ist, wird der Inhalt zusammengefasst und geleert. Die rekursive Zusammenfassung bewahrt den Kern, verliert aber unweigerlich Details – ein Kompromiss, den das Paper einräumt, aber nicht vollständig quantifiziert.

Was Bestand hat – und was nicht

Die DMR-Zahlen sind beeindruckend: Ein Genauigkeitsunterschied von 60 Punkten zwischen MemGPT und einer Standard-GPT-4-Baseline auf dem Multi-Session Chat-Datensatz ist kein statistisches Rauschen. Das Ergebnis zum verschachtelten KV-Retrieval – Baselines scheitern bei 0 %, während MemGPT weiter funktioniert – beweist den realen Wert von iterativem, werkzeuggestütztem Retrieval gegenüber passivem Long-Context-Exposure. Dies knüpft an die Erkenntnisse von Liu et al. in „Lost in the Middle“ (arXiv:2307.03172) an: Selbst wenn Informationen physisch in das Kontextfenster passen, verschlechtert sich die Leistung der Modelle bei Inhalten, die in der Mitte vergraben sind. MemGPT umgeht dies, indem es nur das abruft, was unmittelbar benötigt wird.

Dennoch hat die Evaluierung echte Lücken. Der Multi-Session Chat-Datensatz ist eng gefasst – von Menschen generierte Persona-Chats mit streng kontrollierten Formaten. Wie der Ansatz bei unübersichtlicheren realen Gesprächen oder domänenspezifischen Korpora (Finanzberichte, regulatorische Korrespondenz) skaliert, ist ungeprüft. Der Archivspeicher in den Experimenten ist eine einfache Vektordatenbank; ob die Retrieval-Qualität hoch bleibt, wenn das Archiv auf Millionen von Dokumenten anwächst, bleibt offen. Grundsätzlicher noch: Die Retrieval-Strategie des Agenten ist nur so gut wie seine Suchanfragen. Wenn der Agent nicht weiß, was er nicht weiß – ein häufiges Fehlermuster bei Aufgaben mit langem Horizont –, wird er niemals die richtige Archivabfrage stellen, und die gesamte Architektur kollabiert elegant in denselben Fixed-Context-Fehlermodus.

Zudem gibt es einen Latenz-Kostenfaktor, den das Paper eher beiläufig behandelt. Jede Archivabfrage ist ein zusätzlicher LLM-Inferenzaufruf (um die Abfrage zu generieren) plus eine Vektorsuche. Für einen Beancount-Agenten, der eine Routine-Abstimmung über Jahre an Daten durchführt, könnte sich dies in viele Roundtrips pro Antwort vervielfachen. Das Paper berichtet keine Vergleiche der Wall-Clock-Latenz.

Nachfolgende Arbeiten haben diese Kritikpunkte geschärft. A-MEM (arXiv:2502.12110) beansprucht eine mindestens 2-mal bessere Leistung als MemGPT bei Multi-Hop-Aufgaben und argumentiert, dass die starre Ebenenstruktur von MemGPT hinter einer dynamischeren Speicherkuratierung zurückbleibt. Mem0-Benchmarks (2024-2025) zeigen konkurrierende Ansätze, die MemGPT in Bezug auf Genauigkeit und Geschwindigkeit in einigen Szenarien übertreffen. Die ursprünglichen Autoren haben das Projekt inzwischen zu Letta (September 2024) weiterentwickelt, einem Open-Source-Agent-Framework mit asynchronem „Sleep-Time-Computing“ zur Speicherkonsolidierung – eine implizite Anerkennung, dass das synchrone Single-Agent-Design Skalierungsgrenzen hat.

Warum das für Finanz-KI wichtig ist

Ein Beancount-Ledger für ein kleines Unternehmen akkumuliert über ein Jahrzehnt zehntausende Transaktionen. Ein Agent, der mit der Jahresabschlussabstimmung, der Untersuchung von Anomalien oder einer mehrjährigen Trendanalyse beauftragt ist, kann nicht alles in den Kontext packen. Das dreistufige Design von MemGPT lässt sich fast direkt übertragen: Der Arbeitsspeicher hält den aktuell geprüften Transaktionsstapel; der Recall-Speicher hält den Kontext der letzten Sitzung (was wir beim letzten Mal abgestimmt haben); der Archivspeicher enthält die vollständige Ledger-Historie, Buchungssätze und frühere Anomalieberichte. Die Funktionsaufruf-Schnittstelle für Speicheroperationen ist im Wesentlichen dieselbe Schnittstelle, die der Agent bereits für Rückschreibeoperationen benötigt – dies ist keine neue Fähigkeitsklasse, sondern nur eine neue Anwendung derselben Tool-Calling-Mechanik.

Die tiefere Relevanz liegt in der Verschiebung der Fragestellung: Anstatt zu fragen „können wir mehr in den Kontext packen?“, fragt MemGPT „kann der Agent seine eigene Aufmerksamkeit steuern?“. Für das Finanzwesen ist das die richtige Frage. Eine Steuerprüfung kann eine Frage zu einer Transaktion von vor drei Jahren aufwerfen. Ein kompetenter menschlicher Buchhalter ruft die Originalrechnung ab, gleicht sie mit dem Ledger ab und erinnert sich an den Richtlinienkontext dieses Jahres. Dieses Retrieval-on-Demand-Verhalten ist genau das, worauf uns MemGPT vorbereitet.

Der ehrliche Vorbehalt: MemGPT wurde nicht an Finanzdaten evaluiert, und Finanzdokumente unterscheiden sich strukturell von Persona-Chats. Die Retrieval-Qualität über dichten numerischen Daten, Multiwährungstransaktionen und doppelten Buchführungsschemata wird eigene Benchmarks erfordern.

Was Sie als Nächstes lesen sollten

  • Lost in the Middle: How Language Models Use Long Contexts (Liu et al., arXiv:2307.03172) – die empirische Grundlage dafür, warum längere Kontextfenster allein das Problem nicht lösen; Modelle scheitern daran, Inhalten in der Mitte eines Dokuments Aufmerksamkeit zu schenken, was Retrieval-basierte Ansätze wie MemGPT motiviert.
  • A-MEM: Agentic Memory for LLM Agents (arXiv:2502.12110) – ein Follow-up aus dem Jahr 2025, das eine überlegene Multi-Hop-Speicherleistung verspricht, indem es die starre Ebenenstruktur von MemGPT durch dynamische Speicherkuratierung ersetzt; ein notwendiger Vergleichspunkt.
  • Gorilla: Large Language Model Connected with Massive APIs (arXiv:2305.15334) – als nächstes auf dieser Leseliste; das dortige Retrieval-Augmented Tool-Calling-Design ergänzt das Speichermanagement von MemGPT, indem es adressiert, wie Agenten das richtige Werkzeug aus einer großen API-Oberfläche auswählen.