Salta al contingut principal

MemGPT: Gestió de context virtual per a agents d'LLM

· 7 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

La limitació que restringeix la majoria dels agents d'LLM no és la intel·ligència, sinó la memòria. He estat pensant en això concretament en el context dels llibres majors de Beancount que abasten anys de transaccions: per molt capaç que sigui el model subjacent, un cop l'historial del llibre major supera la finestra de context, l'agent comença a oblidar. MemGPT (Packer et al., UC Berkeley, 2023) aborda aquest problema directament manllevant una solució que els sistemes operatius van resoldre fa dècades.

L'article

2026-05-02-memgpt-towards-llms-as-operating-systems

"MemGPT: Towards LLMs as Operating Systems" (Packer, Wooders, Lin, Fang, Patil, Stoica, Gonzalez; arXiv:2310.08560) proposa la gestió de context virtual, una analogia deliberada a com els sistemes operatius creen la il·lusió d'una gran memòria virtual mitjançant la paginació entre la RAM ràpida i el disc lent. La finestra de context de l'LLM fa el paper de la RAM: escassa, ràpida, directament accessible. Dos magatzems externs fan el paper del disc: un magatzem de recuperació (historial de missatges recents) i un magatzem d'arxiu (una base de dades a llarg termini cercable per a qualsevol text). El mateix agent decideix què llegir de l'emmagatzematge extern i què expulsar del context, utilitzant crides a funcions explícites: eines que mouen dades entre nivells. El sistema activa un avís d'evicció al 70% de la capacitat del context i força un buidat al 100%, generant un resum recursiu dels missatges expulsats per evitar la pèrdua total d'informació.

L'article avalua MemGPT en dos dominis: agents conversacionals multisessió (el conjunt de dades Multi-Session Chat) i l'anàlisi de documents sobre grans corpus que superen la finestra de context nativa del model.

Idees clau

  • Tres nivells de memòria: memòria de treball en context (ràpida, limitada), emmagatzematge de recuperació (missatges recents, cercable) i emmagatzematge d'arxiu (a llarg termini, indexat). L'agent escriu en tots tres mitjançant crides a eines.
  • Deep Memory Retrieval (DMR): la tasca d'avaluació que requereix un record constant a través de múltiples sessions passades. Amb GPT-4, el model de referència estàndard de context fix assoleix una precisió del 32,1%; MemGPT la catapulta al 92,5%. Model de referència GPT-4 Turbo: 35,3% → 93,4%.
  • Recuperació de clau-valor niada: la prova d'estrès d'anàlisi de documents. El GPT-4 estàndard assoleix un 0% de precisió en tres nivells de niament; MemGPT amb GPT-4 manté el rendiment realitzant cerques d'arxiu iteratives.
  • Flux de control mitjançant interrupcions: l'agent senyalitza quan necessita més temps (per realitzar operacions de memòria) abans de respondre, de manera anàloga a una interrupció de sistema operatiu. Això manté el sistema sensible sense forçar-ho tot en una sola passada d'inferència.
  • El problema de l'evicció: quan el context està ple, el contingut es resumeix i s'expulsa. El resum recursiu conserva l'essència però inevitablement perd detalls, un compromís que l'article reconeix però que no quantifica del tot.

Què es manté ferm — i què no

Les xifres de DMR són sorprenents: una bretxa de 60 punts en la precisió entre MemGPT i un model de referència GPT-4 estàndard en el conjunt de dades Multi-Session Chat no és soroll. El resultat de KV niat —on els models de referència fallen amb un 0% mentre MemGPT continua funcionant— demostra quelcom real sobre el valor de la recuperació iterativa mitjançada per eines enfront de l'exposició passiva a contextos llargs. Això connecta amb la troballa "Lost in the Middle" de Liu et al. (arXiv:2307.03172): fins i tot quan la informació cap físicament a la finestra de context, els models es degraden amb el contingut enterrat al mig. MemGPT ho esquiva recuperant només el que es necessita immediatament.

Dit això, l'avaluació té buits reals. El conjunt de dades Multi-Session Chat és limitat: xats de personatges generats per humans amb formats molt controlats. No s'ha provat com s'escala l'enfocament a converses del món real més desordenades o a corpus específics d'un domini (presentacions financeres, correspondència reguladora). L'emmagatzematge d'arxiu en els experiments és una base de dades vectorial simple; queda pendent veure si la qualitat de la recuperació es manté alta a mesura que l'arxiu creix fins als milions de documents. Més fonamentalment: l'estratègia de recuperació de l'agent és tan bona com les seves consultes. Si l'agent no sap què és el que no sap —un mode de fallada comú en tasques de llarg horitzó—, mai realitzarà la cerca d'arxiu correcta, i tota l'arquitectura col·lapsarà elegantment cap al mateix mode de fallada de context fix.

També hi ha un cost de latència que l'article tracta lleugerament. Cada cerca d'arxiu és una crida d'inferència d'LLM addicional (per generar la consulta) més una cerca vectorial. Per a un agent de Beancount que gestioni una conciliació rutinària al llarg d'anys de dades, això podria multiplicar-se en molts viatges d'anada i tornada per resposta. L'article no informa de comparacions de latència de temps real.

Treballs posteriors han esmolat aquestes crítiques. A-MEM (arXiv:2502.12110) reclama un rendiment almenys 2 vegades millor que MemGPT en tasques de salts múltiples, argumentant que l'estructura de nivells rígida de MemGPT té un rendiment inferior a una curació de memòria més dinàmica. Els bancs de proves de Mem0 (2024-2025) mostren enfocaments competidors que superen MemGPT en precisió i velocitat en alguns entorns. Des d'aleshores, els autors originals han fet evolucionar el projecte cap a Letta (setembre de 2024), un marc d'agents de codi obert amb "computació en temps de repòs" asíncrona per a la consolidació de la memòria, un reconeixement implícit que el disseny síncron d'un sol agent té límits d'escalabilitat.

Per què això és important per a la IA financera

Un llibre major de Beancount per a una petita empresa acumula desenes de milers de transaccions al llarg d'una dècada. Un agent encarregat d'una conciliació de final d'any, una investigació d'anomalies o un anàlisi de tendències plurianual no pot encabir-ho tot en el context. El disseny de tres nivells de MemGPT s'hi adapta gairebé directament: la memòria de treball conté el lot de transaccions actual sota revisió; l'emmagatzematge de recuperació conté el context de la sessió recent (què estàvem conciliant l'última vegada); l'emmagatzematge d'arxiu conté l'historial complet del llibre major, els assentaments del diari i els informes d'anomalies anteriors. La interfície de crida a funcions per a operacions de memòria és essencialment la mateixa interfície que l'agent ja necessita per a les operacions d'escriptura; no es tracta d'una nova classe de capacitat, sinó d'una nova aplicació de la mateixa maquinària de crida a eines.

La rellevància més profunda és el canvi d'enfocament: en lloc de preguntar "podem encabir més en el context?", MemGPT pregunta "pot l'agent gestionar la seva pròpia atenció?". Per a les finances, aquesta és la pregunta correcta. Una auditoria fiscal pot fer sorgir una pregunta sobre una transacció de fa tres anys. Un comptable humà competent recupera la factura original, la verifica amb el llibre major i recorda el context de la política d'aquell any. Aquest comportament de recuperació sota demanda és exactament el que MemGPT ens ensenya a dissenyar.

L'advertiment honest: MemGPT no es va avaluar amb dades financeres, i els documents financers són estructuralment diferents dels xats de personatges. La qualitat de la recuperació sobre dades numèriques denses, transaccions multidivisa i esquemes de comptabilitat de doble entrada necessitarà el seu propi banc de proves.

Què llegir a continuació

  • Lost in the Middle: How Language Models Use Long Contexts (Liu et al., arXiv:2307.03172) – la base empírica de per què les finestres de context més llargues per si soles no resolen el problema; els models no aconsegueixen atendre el contingut del mig del document, cosa que motiva enfocaments basats en la recuperació com MemGPT.
  • A-MEM: Agentic Memory for LLM Agents (arXiv:2502.12110) – un seguiment del 2025 que reclama un rendiment superior de la memòria de salts múltiples substituint l'estructura de nivells rígid de MemGPT per una curació dinàmica de la memòria; un punt de comparació necessari.
  • Gorilla: Large Language Model Connected with Massive APIs (arXiv:2305.15334) – el següent en aquesta llista de lectura; el disseny de crida a eines augmentat per recuperació d'allà complementa la gestió de memòria de MemGPT abordant com els agents seleccionen l'eina adequada d'una gran superfície d'API.