MemGPT: Gerenciamento de Contexto Virtual para Agentes de LLM
A restrição que limita a maioria dos agentes de LLM não é a inteligência — é a memória. Tenho pensado nisso concretamente no contexto de livros razão do Beancount que abrangem anos de transações: não importa quão capaz seja o modelo subjacente, uma vez que o histórico do livro razão excede a janela de contexto, o agente começa a esquecer. O MemGPT (Packer et al., UC Berkeley, 2023) ataca esse problema diretamente ao emprestar uma solução que os sistemas operacionais resolveram décadas atrás.
O artigo
"MemGPT: Towards LLMs as Operating Systems" (Packer, Wooders, Lin, Fang, Patil, Stoica, Gonzalez; arXiv:2310.08560) propõe o gerenciamento de contexto virtual — uma analogia deliberada a como os SOs criam a ilusão de uma grande memória virtual paginando entre a RAM rápida e o disco lento. A janela de contexto do LLM desempenha o papel da RAM: escassa, rápida, diretamente acessível. Dois armazenamentos externos desempenham o papel do disco: um armazenamento de recuperação (histórico de mensagens recentes) e um armazenamento de arquivamento (um banco de dados de longo prazo pesquisável para texto arbitrário). O próprio agente decide o que ler do armazenamento externo e o que expulsar do contexto, usando chamadas de função explícitas — ferramentas que movem dados entre os níveis. O sistema dispara um aviso de expulsão com 70% da capacidade do contexto e força uma limpeza em 100%, gerando um resumo recursivo das mensagens expulsas para evitar a perda total de informações.
O artigo avalia o MemGPT em dois domínios: agentes conversacionais multissessão (o conjunto de dados Multi-Session Chat) e análise de documentos sobre grandes corpora que excedem a janela de contexto nativa do modelo.
Ideias-chave
- Três níveis de memória: memória de trabalho no contexto (rápida, limitada), armazenamento de recuperação (mensagens recentes, pesquisável) e armazenamento de arquivamento (longo prazo, indexado). O agente escreve em todos os três via chamadas de ferramentas.
- Recuperação de Memória Profunda (DMR): a tarefa de avaliação que requer lembrança consistente em várias sessões passadas. Com o GPT-4, a linha de base padrão de contexto fixo atinge 32,1% de precisão; o MemGPT a eleva para 92,5%. Linha de base do GPT-4 Turbo: 35,3% → 93,4%.
- Recuperação de chave-valor aninhada: o teste de estresse de análise de documentos. O GPT-4 padrão atinge 0% de precisão em três níveis de aninhamento; o MemGPT com GPT-4 sustenta o desempenho fazendo buscas iterativas no arquivamento.
- Fluxo de controle via interrupções: o agente sinaliza quando precisa de mais tempo (para emitir operações de memória) antes de responder, de forma análoga a uma interrupção de SO. Isso mantém o sistema responsivo sem forçar tudo em uma única passagem de inferência.
- O problema da expulsão: quando o contexto está cheio, o conteúdo é resumido e limpo. A sumarização recursiva preserva o essencial, mas inevitavelmente perde detalhes — um compromisso que o artigo reconhece, mas não quantifica totalmente.
O que se sustenta — e o que não
Os números do DMR são impressionantes: uma lacuna de precisão de 60 pontos entre o MemGPT e uma linha de base padrão do GPT-4 no conjunto de dados Multi-Session Chat não é ruído. O resultado do KV aninhado — linhas de base falhando em 0% enquanto o MemGPT continua a funcionar — demonstra algo real sobre o valor da recuperação iterativa mediada por ferramentas versus a exposição passiva ao contexto longo. Isso se conecta à descoberta "Lost in the Middle" de Liu et al. (arXiv:2307.03172): mesmo quando a informação cabe fisicamente na janela de contexto, os modelos degradam para conteúdos enterrados no meio. O MemGPT contorna isso recuperando apenas o que é imediatamente necessário.
Dito isso, a avaliação possui lacunas reais. O conjunto de dados Multi-Session Chat é restrito — chats de personas gerados por humanos com formatos rigidamente controlados. Como a abordagem escala para conversas do mundo real mais desordenadas ou corpora específicos de domínio (arquivos financeiros, correspondência regulatória) não foi testado. O armazenamento de arquivamento nos experimentos é um banco de dados vetorial simples; se a qualidade da recuperação permanece alta à medida que o arquivo cresce para milhões de documentos, permanece uma questão aberta. Mais fundamentalmente: a estratégia de recuperação do agente é tão boa quanto suas consultas. Se o agente não sabe o que não sabe — um modo comum de falha em tarefas de longo horizonte — ele nunca emitirá a busca correta no arquivamento, e toda a arquitetura colapsa graciosamente no mesmo modo de falha de contexto fixo.
Há também um custo de latência que o artigo trata de forma leve. Cada busca no arquivamento é uma chamada de inferência de LLM adicional (para gerar a consulta) mais uma pesquisa vetorial. Para um agente Beancount lidando com uma conciliação rotineira de anos de dados, isso poderia se multiplicar em muitas viagens de ida e volta por resposta. O artigo não relata comparações de latência de tempo real.
Trabalhos subsequentes refinaram essas críticas. O A-MEM (arXiv:2502.12110) reivindica um desempenho pelo menos 2 vezes melhor que o MemGPT em tarefas de múltiplos saltos (multi-hop), argumentando que a estrutura rígida de níveis do MemGPT tem desempenho inferior a uma curadoria de memória mais dinâmica. Os benchmarks do Mem0 (2024-2025) mostram abordagens concorrentes superando o MemGPT em precisão e velocidade em alguns cenários. Desde então, os autores originais evoluíram o projeto para Letta (setembro de 2024), um framework de agentes de código aberto com "computação em tempo de sono" assíncrona para consolidação de memória — um reconhecimento implícito de que o design síncrono de agente único tem limites de escala.
Por que isso importa para a IA nas finanças
Um livro razão do Beancount para uma pequena empresa acumula dezenas de milhares de transações ao longo de uma década. Um agente encarregado da conciliação de final de ano, investigação de anomalias ou análise de tendências plurianuais não consegue colocar tudo no contexto. O design de três níveis do MemGPT mapeia quase diretamente: a memória de trabalho contém o lote de transações atual em revisão; o armazenamento de recuperação contém o contexto da sessão recente (o que estávamos conciliando da última vez); o armazenamento de arquivamento contém todo o histórico do livro razão, lançamentos de diário e relatórios de anomalias anteriores. A interface de chamada de função para operações de memória é essencialmente a mesma interface que o agente já precisa para operações de gravação — esta não é uma nova classe de capacidade, apenas uma nova aplicação do mesmo maquinário de chamada de ferramentas.
A relevância mais profunda é a mudança de perspectiva: em vez de perguntar "podemos colocar mais no contexto?", o MemGPT pergunta "pode o agente gerenciar sua própria atenção?". Para as finanças, essa é a pergunta certa. Uma auditoria fiscal pode trazer à tona uma questão sobre uma transação de três anos atrás. Um contador humano competente recupera a fatura original, faz o cruzamento com o livro razão e relembra o contexto das políticas daquele ano. Esse comportamento de recuperação sob demanda é exatamente o que o MemGPT nos treina a projetar.
A ressalva honesta: o MemGPT não foi avaliado em dados financeiros, e documentos financeiros são estruturalmente diferentes de chats de personas. A qualidade da recuperação sobre dados numéricos densos, transações multimoedas e esquemas de contabilidade de partidas dobradas precisará de seu próprio benchmark.
O que ler a seguir
- Lost in the Middle: How Language Models Use Long Contexts (Liu et al., arXiv:2307.03172) — a base empírica de por que janelas de contexto mais longas por si só não resolvem o problema; os modelos falham em prestar atenção ao conteúdo no meio do documento, o que motiva abordagens baseadas em recuperação como o MemGPT.
- A-MEM: Agentic Memory for LLM Agents (arXiv:2502.12110) — um acompanhamento de 2025 reivindicando desempenho superior de memória multi-hop ao substituir a estrutura rígida de níveis do MemGPT por uma curadoria dinâmica de memória; um ponto de comparação necessário.
- Gorilla: Large Language Model Connected with Massive APIs (arXiv:2305.15334) — o próximo nesta lista de leitura; o design de chamada de ferramentas aumentada por recuperação complementa o gerenciamento de memória do MemGPT ao abordar como os agentes selecionam a ferramenta certa de uma grande superfície de API.
