Mike Thrift
Marketing Manager
SWE-agent: Com el disseny d'interfícies desbloqueja l'enginyeria de programari automatitzada
SWE-agent (NeurIPS 2024) introdueix les interfícies agent-ordinador (ACI) —capes creades específicament entre els LLM i els entorns de programari—, mostrant una millora de 10,7 punts percentuals respecte a l'accés directe a la shell i una resolució del 12,47% a SWE-bench amb GPT-4 Turbo. El disseny de la interfície, i no la capacitat del model, és el principal coll d'ampolla per als agents de programació autònoms.
SWE-bench: Poden els models de llenguatge resoldre problemes reals de GitHub?
SWE-bench avalua els models de llenguatge en 2.294 problemes reals de GitHub en 12 repositoris de Python mitjançant proves basades en l'execució; en el moment de la publicació, Claude 2 va resoldre només l'1,96% dels problemes amb una recuperació realista, establint el referent de facto per als agents de codificació i revelant modes d'error de recuperació i longitud de pegats directament rellevants per als agents d'escriptura de Beancount.
CodeAct: Per què el codi Python executable fa que els agents LLM siguin un 20% més precisos
CodeAct (ICML 2024) substitueix les crides d'eines JSON per codi Python executable, millorant les taxes d'èxit dels agents GPT-4 en uns 20 punts percentuals en tasques multi-eina i reduint els torns d'interacció en un 30%, amb implicacions directes per a la construcció d'agents de conciliació de Beancount fiables.
Els LLM encara no poden autocorregir el raonament — Conclusions de l'ICLR 2024 i implicacions per a la IA financera
Huang et al. (ICLR 2024) mostren que els LLM a qui se'ls demana revisar el seu propi raonament sense feedback extern degraden constantment la seva precisió —GPT-4 baixa del 95,5% al 91,5% a GSM8K— i què significa això per al disseny d'agents fiables d'assentaments comptables de Beancount.
Tree of Thoughts: Resolució Deliberada de Problemes amb Cerca de LLM
Tree of Thoughts (ToT) aconsegueix un 74% en el Joc del 24 en comparació amb el 4% de la CoT estàndard de GPT-4 organitzant el raonament de l'LLM en un arbre de cerca ramificat amb poda i retrocés, amb implicacions directes per a la classificació financera de múltiples passos i l'optimització fiscal en fluxos de treball de Beancount.
CRITIC: Per què l'autocorrecció dels LLM requereix retroacció d'eines externes
CRITIC (ICLR 2024) aconsegueix guanys de 7,7 en F1 en QA de domini obert i una reducció de la toxicitat del 79,2% en basar la revisió de l'LLM en senyals d'eines externes — un bucle de verificar i després corregir que es trasllada directament a la seguretat d'escriptura per als agents financers de Beancount.
Reflexion: Agents de llenguatge que aprenen dels errors sense reentrenament
Reflexion (NeurIPS 2023) permet que els agents LLM millorin emmagatzemant autòpsies verbals en un buffer episòdic — sense necessitat d'actualitzar els pesos. Arriba al 91% a HumanEval amb GPT-4 però falla a WebShop, revelant una restricció estructural: el reforç verbal només funciona quan l'avaluador produeix un senyal clar i executable. Aquí expliquem què significa això per construir un agent de llibre major de Beancount que s'autocorregeixi.
Auto-consistència: el mostreig per votació majoritària millora la precisió de la cadena de pensament
L'auto-consistència substitueix la descodificació voraç de la cadena de pensament per una votació majoritària sobre N rutes de raonament mostrejades —millorant la precisió de GPT-3 a GSM8K en 17,9 punts percentuals sense cap ajust fi— i s'aplica directament als càlculs financers de diversos passos on una única descodificació de LLM no és fiable.
PAL: Models de llenguatge assistits per programes per a una aritmètica financera fiable
PAL (Program-Aided Language Models) aconsegueix un guany de precisió de +38 pp respecte a la cadena de pensament en tasques amb molta càrrega aritmètica delegant el càlcul a un intèrpret de Python, una arquitectura directament aplicable per a consultes fiables al llibre diari de Beancount i IA financera.
Poden els LLM raonar sobre dades tabulars? El que quatre bancs de proves ens diuen sobre la IA financera
Quatre bancs de proves de 2024–2025 mostren que el GPT-4 obté una puntuació del 42% en preguntes i respostes sobre taules reals en comparació amb el 86% dels humans, amb agregacions complexes que cauen fins al 19,6%, i la sintaxi nativa de Beancount se situa en l'extrem amb pitjor rendiment de la jerarquia de serialització per a l'entrada de LLM.
IA constitucional per a agents comptables: RLAIF, regles de política i riscos de Goodharting
L'article sobre IA constitucional d'Anthropic (Bai et al., 2022) entrena LLMs per seguir regles mitjançant retroalimentació generada per IA en lloc d'etiquetes de dany humanes. Aquest registre d'investigació examina com el pipeline de crítica-revisió-preferència de RLAIF s'aplica a la seguretat de reescriptura per a agents autònoms de llibres majors de Beancount, i com es veuen el Goodharting, els errors de calibratge i els riscos de doble ús quan la «constitució» és un pla de comptes en lloc d'un conjunt de regles ètiques.
Prompting de Cadena de Pensament: Compromisos entre Precisió i Exhaustivitat per a la IA Financera
Una lectura atenta de l'article de 2022 sobre Chain-of-Thought de Wei et al. i què significa per a la IA financera — per què el CoT augmenta la precisió però pot reduir l'exhaustivitat en la detecció d'esdeveniments rars, per què el llindar d'escala és important per als agents de producció i què ha de tenir en compte un equip financer que construeix sobre LLMs.