MemGPT: Віртуальне керування контекстом для агентів LLM
Обмеженням, яке стримує більшість агентів LLM, є не інтелект, а пам'ять. Я міркував про це конкретно в контексті гросбухів Beancount, що охоплюють роки транзакцій: незалежно від можливостей базової моделі, щойно історія гросбуха перевищує вікно контексту, агент починає забувати. MemGPT (Packer et al., UC Berkeley, 2023) атакує цю проблему безпосередньо, запозичуючи рішення, яке операційні системи знайшли десятиліття тому.
Стаття
«MemGPT: Towards LLMs as Operating Systems» (Packer, Wooders, Lin, Fang, Patil, Stoica, Gonzalez; arXiv:2310.08560) пропонує віртуальне керування контекстом — свідому аналогію до того, як ОС створюють ілюзію великої віртуальної пам'яті шляхом підкачування (paging) між швидкою ОЗП та повільним диском. Вікно контексту LLM відіграє роль ОЗП: дефіцитне, швидке, безпосередньо доступне. Два зовнішніх сховища виконують роль диска: сховище відтворення (recent message history) та архівне сховище (пошукова довгострокова база даних для довільного тексту). Сам агент вирішує, що зчитувати із зовнішнього сховища і що витісняти з контексту, використовуючи явні виклики функцій — інструменти, які переміщують дані між рівнями. Система ініціює попередження про витіснення при 70% заповнення контексту та примусово очищує його при 100%, генеруючи рекурсивне резюме витіснених повідомлень, щоб уникнути повної втрати інформації.
У статті MemGPT оцінюється у двох доменах: багатосесійні розмовні агенти (набір даних Multi-Session Chat) та аналіз документів у великих корпусах, що перевищують нативне вікно контексту моделі.