MemGPT застосовує підкачування віртуальної пам’яті в стилі ОС до LLM, використовуючи трирівневе сховище — робочу пам’ять, пам’ять відтворення та архівну пам’ять — щоб надати агентам стійке відтворення між сесіями; на тестах багатосесійних чатів MemGPT з GPT-4 досягає точності 92,5% проти базової лінії 32,1% з фіксованим контекстом.
SWE-agent (NeurIPS 2024) представляє інтерфейси агент-комп'ютер (ACI) — спеціально розроблені рівні між LLM та програмними середовищами — демонструючи покращення на 10,7 відсоткових пунктів порівняно з прямим доступом до оболонки та 12,47% вирішення на SWE-bench з GPT-4 Turbo. Дизайн інтерфейсу, а не можливості моделі, є основним вузьким місцем для автономних агентів кодування.
SWE-bench оцінює мовні моделі на основі 2294 реальних проблем GitHub у 12 репозиторіях Python за допомогою тестів на основі виконання; на момент публікації Claude 2 вирішив лише 1,96% проблем за умови реалістичного пошуку, ставши бенчмарком де-факто для агентів кодування та виявивши недоліки в пошуку та довжині патчів, які мають безпосереднє значення для агентів запису Beancount.
CodeAct (ICML 2024) замінює JSON-виклики інструментів виконуваним кодом Python, що підвищує рівень успіху агентів GPT-4 приблизно на 20 відсоткових пунктів у завданнях із використанням кількох інструментів і скорочує кількість ітерацій на 30% — це має пряме значення для створення надійних агентів узгодження Beancount.
Хуанг та ін. (ICLR 2024) демонструють, що LLM, яких просять переглянути власні міркування без зовнішнього зворотного зв'язку, стабільно втрачають точність — показник GPT-4 падає з 95,5% до 91,5% на GSM8K — і що це означає для розробки надійних агентів для записів у журналі Beancount.
Tree of Thoughts (ToT) досягає 74% у «Грі 24» проти 4% у стандартному GPT-4 CoT шляхом організації міркувань LLM у дерево пошуку з розгалуженням, відсіканням та поверненням назад — це має прямі наслідки для багатоетапної фінансової класифікації та оптимізації податків у робочих процесах Beancount.
CRITIC (ICLR 2024) до сягає приросту F1 на 7,7 у завданнях QA з відкритим доменом та зниження токсичності на 79,2% шляхом заземлення перегляду LLM у сигналах зовнішніх інструментів — циклу «перевірка-корекція», який безпосередньо відповідає за безпеку зворотного запису для фінансових агентів Beancount.
Reflexion (NeurIPS 2023) дозволяє LLM-агентам удосконалюватися шляхом збереження вербального аналізу помилок в епізодичному буфері — без потреби в оновленні ваг. Метод досягає 91% на HumanEval з GPT-4, але зазнає невдачі в WebShop, виявляючи структурне обмеження — вербальне підкріплення працює лише тоді, коли оцінювач видає чіткий, дієвий сигнал. Ось що це означає для створення самокоригованого агента для книги Beancount.
Самоузгодженість замінює жадібне декодування ланцюжка думок голосуванням більшістю за N вибраними шляхами міркування — підвищуючи точність GPT-3 на GSM8K на 17,9 відсоткових пунктів без донавчання — і безпосередньо застосовується до багатоетапних фінансових розрахунків, де одноразове виведення ВММ є ненадійним.