Prejsť na hlavný obsah

MemGPT: Virtuálna správa kontextu pre LLM agentov

· 6 minút čítania
Mike Thrift
Mike Thrift
Marketing Manager

Obmedzením, ktoré limituje väčšinu LLM agentov, nie je inteligencia — je to pamäť. Konkrétne som o tom premýšľal v súvislosti s účtovnými knihami Beancount, ktoré zahŕňajú transakcie za celé roky: bez ohľadu na to, aký schopný je základný model, akonáhle história účtovnej knihy prekročí kontextové okno, agent začne zabúdať. MemGPT (Packer et al., UC Berkeley, 2023) útočí na tento problém priamo tým, že si vypožičiava riešenie, ktoré operačné systémy vyriešili už pred desiatkami rokov.

Odborná práca

2026-05-02-memgpt-towards-llms-as-operating-systems

„MemGPT: Smerom k LLM ako operačným systémom“ (Packer, Wooders, Lin, Fang, Patil, Stoica, Gonzalez; arXiv:2310.08560) navrhuje virtuálnu správu kontextu — zámernú analógiu k tomu, ako OS vytvárajú ilúziu veľkej virtuálnej pamäte stránkovaním medzi rýchlou RAM a pomalým diskom. Kontextové okno LLM hrá úlohu RAM: je vzácne, rýchle a priamo prístupné. Dve externé úložiská hrajú úlohu disku: úložisko pre vyvolanie (nedávna história správ) a archívne úložisko (vyhľadávateľná dlhodobá databáza pre ľubovoľný text). Samotný agent rozhoduje o tom, čo načítať z externého úložiska a čo vyradiť z kontextu pomocou explicitných volaní funkcií — nástrojov, ktoré presúvajú dáta medzi úrovňami. Systém spustí varovanie pred vyradením pri 70 % kapacity kontextu a vynúti vyprázdnenie (flush) pri 100 %, pričom vygeneruje rekurzívny súhrn vyradených správ, aby sa zabránilo úplnej strate informácií.

Práca vyhodnocuje MemGPT v dvoch doménach: konverzační agenti pre viacero relácií (dataset Multi-Session Chat) a analýza dokumentov nad veľkými korpusmi, ktoré presahujú natívne kontextové okno modelu.

Kľúčové myšlienky

  • Tri úrovne pamäte: in-context pracovná pamäť (rýchla, obmedzená), úložisko pre vyvolanie (nedávne správy, vyhľadávateľné) a archívne úložisko (dlhodobé, indexované). Agent zapisuje do všetkých troch prostredníctvom volaní nástrojov.
  • Hĺbkové vyhľadávanie v pamäti (Deep Memory Retrieval - DMR): hodnotiaca úloha, ktorá si vyžaduje konzistentné vybavovanie informácií naprieč viacerými minulými reláciami. S GPT-4 dosahuje štandardná základná úroveň s pevným kontextom presnosť 32,1 %; MemGPT ju zvyšuje na 92,5 %. Základná úroveň GPT-4 Turbo: 35,3 % → 93,4 %.
  • Vnorené vyhľadávanie kľúč-hodnota: záťažový test analýzy dokumentov. Štandardná GPT-4 dosahuje 0 % presnosť pri troch úrovniach vnorenia; MemGPT s GPT-4 si udržuje výkon vďaka iteratívnemu vyhľadávaniu v archíve.
  • Riadenie toku cez prerušenia: agent signalizuje, keď potrebuje viac času (na vykonanie operácií s pamäťou) pred odpoveďou, čo je analogické k prerušeniu v OS. To udržuje systém responzívny bez toho, aby sa všetko vynucovalo do jedného prechodu inferencie.
  • Problém vyraďovania: keď je kontext plný, obsah sa zhrnie a vyprázdni. Rekurzívna sumarizácia zachováva podstatu, ale nevyhnutne stráca detaily — kompromis, ktorý práca priznáva, ale plne nekvantifikuje.

Čo obstojí — a čo nie

Čísla DMR sú ohromujúce: 60-bodový rozdiel v presnosti medzi MemGPT a štandardnou GPT-4 v datasete Multi-Session Chat nie je náhoda. Výsledok vnoreného KV — kde základné modely zlyhávajú na 0 %, zatiaľ čo MemGPT pokračuje v práci — demonštruje reálnu hodnotu iteratívneho vyhľadávania sprostredkovaného nástrojmi v porovnaní s pasívnym vystavením dlhému kontextu. Toto nadväzuje na zistenie Liu et al. „Lost in the Middle“ (arXiv:2307.03172): aj keď sa informácie fyzicky zmestia do kontextového okna, schopnosti modelov degradujú pri obsahu pochovanom uprostred. MemGPT sa tomu vyhýba tým, že vyhľadáva len to, čo je okamžite potrebné.

Napriek tomu má hodnotenie reálne trhliny. Dataset Multi-Session Chat je úzky — ide o chaty s personami generované ľuďmi s prísne kontrolovanými formátmi. To, ako sa tento prístup škáluje na neusporiadanejšie konverzácie v reálnom svete alebo na doménovo špecifické korpusy (finančné výkazy, regulačná korešpondencia), nie je otestované. Archívne úložisko v experimentoch je jednoduchá vektorová databáza; či kvalita vyhľadávania zostane vysoká, keď sa archív rozrastie na milióny dokumentov, zostáva otvorené. Čo je však zásadnejšie: stratégia vyhľadávania agenta je len taká dobrá, ako sú jeho dopyty. Ak agent nevie, čo nevie — čo je bežný režim zlyhania pri úlohách s dlhým horizontom — nikdy nevytvorí správny archívny dopyt a celá architektúra elegantne skolabuje do rovnakého režimu zlyhania ako pri pevnom kontexte.

Existujú aj náklady na latenciu, ktoré práca berie na ľahkú váhu. Každé vyhľadávanie v archíve predstavuje dodatočné volanie inferencie LLM (na vygenerovanie dopytu) plus vektorové vyhľadávanie. Pre agenta Beancount, ktorý spracováva rutinné odsúhlasenie za roky údajov, by sa to mohlo znásobiť na mnoho komunikačných cyklov na jednu odpoveď. Práca neuvádza porovnania reálnej časovej latencie (wall-clock latency).

Nadväzujúce práce tieto kritiky vyostrili. A-MEM (arXiv:2502.12110) uvádza minimálne 2× lepší výkon ako MemGPT pri viac-krokových (multi-hop) úlohách, pričom argumentuje, že rigidná štruktúra úrovní MemGPT zaostáva za dynamickejšou kuráciou pamäte. Benchmarky Mem0 (2024-2025) ukazujú konkurenčné prístupy prekonávajúce MemGPT v presnosti a rýchlosti v niektorých nastaveniach. Pôvodní autori odvtedy vyvinuli projekt do podoby Letta (september 2024), open-source frameworku pre agentov s asynchrónnym „výpočtom v čase spánku“ na konsolidáciu pamäte — čo je implicitným priznaním, že synchrónny dizajn s jedným agentom má limity škálovania.

Prečo je to dôležité pre AI vo financiách

Účtovná kniha Beancount pre malú firmu akumuluje za desaťročie desaťtisíce transakcií. Agent poverený ročnou uzávierkou, vyšetrovaním anomálií alebo viacročnou analýzou trendov nemôže obsiahnuť všetko v kontexte. Trojúrovňový dizajn MemGPT sa sem hodí takmer priamo: pracovná pamäť uchováva aktuálnu dávku transakcií na kontrolu; úložisko pre vyvolanie uchováva kontext nedávnej relácie (čo sme odsúhlasovali naposledy); archívne úložisko uchováva celú históriu účtovnej knihy, účtovné zápisy a predchádzajúce správy o anomáliách. Rozhranie volania funkcií pre operácie s pamäťou je v podstate to isté rozhranie, ktoré agent už potrebuje pre operácie zápisu — nejde o novú triedu schopností, len o novú aplikáciu rovnakého mechanizmu volania nástrojov.

Hlbší význam spočíva v posune rámca: namiesto otázky „dokážeme do kontextu vložiť viac?“, sa MemGPT pýta „dokáže agent riadiť svoju vlastnú pozornosť?“. Pre financie je to tá správna otázka. Daňová kontrola môže vyvolať otázku o transakcii spred troch rokov. Schopný ľudský účtovník dohľadá pôvodnú faktúru, krížovo ju skontroluje s hlavnou knihou a vybaví si kontext vtedajších pravidiel. Toto správanie „vyhľadávania na požiadanie“ je presne to, na čo nás MemGPT učí navrhovať systémy.

Úprimné varovanie: MemGPT nebol vyhodnocovaný na finančných údajoch a finančné dokumenty sú štrukturálne odlišné od chatov s personami. Kvalita vyhľadávania nad hustými číselnými údajmi, transakciami vo viacerých menách a schémami podvojného účtovníctva bude potrebovať vlastný benchmark.

Čo si prečítať ďalej

  • Lost in the Middle: How Language Models Use Long Contexts (Liu et al., arXiv:2307.03172) — empirický základ toho, prečo samotné dlhšie kontextové okná neriešia problém; modely nedokážu venovať pozornosť obsahu uprostred dokumentu, čo motivuje prístupy založené na vyhľadávaní ako MemGPT.
  • A-MEM: Agentic Memory for LLM Agents (arXiv:2502.12110) — nadväzujúca práca z roku 2025 uvádzajúca vynikajúci výkon viac-krokovej pamäte nahradením rigidnej štruktúry MemGPT dynamickou kuráciou pamäte; nevyhnutný bod porovnania.
  • Gorilla: Large Language Model Connected with Massive APIs (arXiv:2305.15334) — ďalšie na tomto zozname čítania; dizajn volania nástrojov rozšírený o vyhľadávanie tu dopĺňa správu pamäte MemGPT tým, že rieši, ako agenti vyberajú správny nástroj z veľkého rozhrania API.