MemGPT aplica la paginació de memòria virtual d'estil sistema operatiu als LLM, utilitzant un emmagatzematge de tres nivells (memòria de treball, de recuperació i d'arxiu) per donar als agents un record persistent entre sessions; en bancs de proves de xat multisessió, MemGPT amb GPT-4 assoleix una precisi ó del 92,5% en comparació amb el 32,1% del model de referència de context fix.
SWE-agent (NeurIPS 2024) introdueix les interfícies agent-ordinador (ACI) —capes creades específicament entre els LLM i els entorns de programari—, mostrant una millora de 10,7 punts percentuals respecte a l'accés directe a la shell i una resolució del 12,47% a SWE-bench amb GPT-4 Turbo. El disseny de la interfície, i no la capacitat del model, és el principal coll d'ampolla per als agents de programació autònoms.
SWE-bench avalua els models de llenguatge en 2.294 problemes reals de GitHub en 12 repositoris de Python mitjançant proves basades en l'execució; en el moment de la publicació, Claude 2 va resoldre només l'1,96% dels problemes amb una recuperació realista, establint el referent de facto per als agents de codificació i revelant modes d'error de recuperació i longitud de pegats directament rellevants per als agents d'escriptura de Beancount.
CodeAct (ICML 2024) substitueix les crides d'eines JSON per codi Python executable, millorant les taxes d'èxit dels agents GPT-4 en uns 20 punts percentuals en tasques multi-eina i reduint els torns d'interacció en un 30%, amb implicacions directes per a la construcció d'agents de conciliació de Beancount fiables.
Huang et al. (ICLR 2024) mostren que els LLM a qui se'ls demana revisar el seu propi raonament sense feedback extern degraden constantment la seva precisió —GPT-4 baixa del 95,5% al 91,5% a GSM8K— i què significa això per al disseny d'agents fiables d'assentaments comptables de Beancount.
Tree of Thoughts (ToT) aconsegueix un 74% en el Joc del 24 en comparació amb el 4% de la CoT estàndard de GPT-4 organitzant el raonament de l'LLM en un arbre de cerca ramificat amb poda i retrocés, amb implicacions directes per a la classificació financera de múltiples passos i l'optimització fiscal en fluxos de treball de Beancount.
CRITIC (ICLR 2024) aconsegueix guanys de 7,7 en F1 en QA de domini obert i una reducció de la toxicitat del 79,2% en basar la revisió de l'LLM en senyals d'eines externes — un bucle de verificar i després corregir que es trasllada directament a la seguretat d'escriptura per als agents financers de Beancount.
Reflexion (NeurIPS 2023) permet que els agents LLM millorin emmagatzemant autòpsies verbals en un buffer episòdic — sense necessitat d'actualitzar els pesos. Arriba al 91% a HumanEval amb GPT-4 però falla a WebShop, revelant una restricció estructural: el reforç verbal només funciona quan l'avaluador produeix un senyal clar i executable. Aquí expliquem què significa això per construir un agent de llibre major de Beancount que s'autocorregeixi.
L'auto-consistència substitueix la descodificació voraç de la cadena de pensament per una votació majoritària sobre N rutes de raonament mostrejades —millorant la precisió de GPT-3 a GSM8K en 17,9 punts percentuals sense cap ajust fi— i s'aplica directament als càlculs financers de diversos passos on una única descodificació de LLM no és fiable.