MemGPT aplica la paginación de memoria virtual al estilo de los sistemas operativos a los LLM, utilizando un almacenamiento de tres niveles (memoria de trabajo, recuperación y archivo) para dar a los agentes un recuerdo persistente entre sesiones; en pruebas de chat multisesión, MemGPT con GPT-4 alcanza una precisión del 92,5% frente a una base de referencia de contexto fijo del 32,1%.
SWE-agent (NeurIPS 2024) introduce las Interfaces Agente-Computadora (ACI) —capas diseñadas específicamente entre los LLM y los entornos de software— mostrando una mejora de 10.7 puntos porcentuales sobre el acceso directo a la shell y una resolución del 12.47% en SWE-bench con GPT-4 Turbo. El diseño de la interfaz, no la capacidad del modelo, es el principal cuello de botella para los agentes de codificación autónomos.
SWE-bench evalúa modelos de lenguaje en 2,294 problemas reales de GitHub en 12 repositorios de Python mediante pruebas basadas en ejecución; al momento de su publicación, Claude 2 resolvió solo el 1.96% de los problemas con una recuperación realista, estableciendo el benchmark de facto para agentes de codificación y revelando fallos en la recuperación y en la longitud de los parches directamente relevantes para los agentes de escritura de Beancount.
CodeAct (ICML 2024) reemplaza las llamadas a herramientas mediante JSON con código Python ejecutable, mejorando las tasas de éxito de los agentes GPT-4 en aproximadamente 20 puntos porcentuales en tareas multiherramienta y reduciendo los turnos de interacción en un 30%, con implicaciones directas para la creación de agentes de conciliación de Beancount confiables.
Huang et al. (ICLR 2024) demuestran que los LLM a los que se les pide revisar su propio razonamiento sin retroalimentación externa degradan sistemáticamente su precisión (GPT-4 cae del 95,5 % al 91,5 % en GSM8K) y analizan qué significa esto para el diseño de agentes confiables de asientos contables en Beancount.
El Árbol de Pensamientos (ToT) logra un 74% en el Juego del 24 frente al 4% del CoT estándar de GPT-4 al organizar el razonamiento del LLM en un árbol de búsqueda ramificado con poda y retroceso, con implicaciones directas para la clasificación financiera de varios pasos y la optimización fiscal en los flujos de trabajo de Beancount.
CRITIC (ICLR 2024) logra mejoras de 7.7 en F1 en QA de dominio abierto y una reducción de toxicidad del 79.2% al basar la revisión de los LLM en señales de herramientas externas — un bucle de verificar-luego-corregir que se aplica directamente a la seguridad de escritura para agentes financieros de Beancount.
Reflexion (NeurIPS 2023) permite que los agentes LLM mejoren almacenando análisis post-mortem verbales en un búfer episódico, sin necesidad de actualizar pesos. Alcanza un 91% en HumanEval con GPT-4 pero falla en WebShop, revelando una limitación estructural: el refuerzo verbal solo funciona cuando el evaluador produce una señal clara y accionable. Esto es lo que significa para construir un agente de libro mayor de Beancount autocorregible.
La autoconsistencia reemplaza la decodificación codiciosa de la cadena de pensamiento con un voto mayoritario sobre N rutas de razonamiento muestreadas — aumentando la precisión de GPT-3 en GSM8K en 17,9 puntos porcentuales sin ajuste fino — y se aplica directamente a cálculos financieros de varios pasos donde una sola decodificación de LLM no es confiable.