Salta al contingut principal
Reconciliation

Tot Sobre Reconciliation

10 articles
Automated ledger reconciliation using language model agents

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

FinRAGBench-V (EMNLP 2025) és el primer banc de proves a gran escala per a RAG multimodal amb citacions visuals en finances, que cobreix més de 112.000 pàgines de documents i 1.394 parells de preguntes i respostes anotats per humans. Els models superiors només aconsegueixen una recuperació de citacions a nivell de bloc del 20–61%, i la recuperació multimodal supera la de només text en gairebé 50 punts percentuals.

Poden els agents LLM ser CFO? La simulació de 132 mesos d'EnterpriseArena revela una gran bretxa

EnterpriseArena posa a prova 11 LLM a través d'una simulació de CFO de 132 mesos seguint la supervivència, la valoració final i les taxes de tancament de llibres. Només Qwen3.5-9B sobreviu al 80% de les execucions; GPT-5.4 i DeepSeek-V3.1 arriben al 0%. Els experts humans aconsegueixen una supervivència del 100% amb 5 vegades el valor final. El coll d'ampolla crític: els LLM ometen la conciliació del llibre major el 80% de les vegades, actuant sobre un estat financer obsolet.

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

Fin-RATE avalua 17 LLM en 7.500 parells de preguntes i respostes seleccionades per experts de 2.472 documents de la SEC, revelant un col·lapse de la precisió del 18,60% en el seguiment longitudinal i una caiguda de 54 punts per al model Fin-R1 especialitzat en finances en tasques entre entitats, amb el pipeline de recuperació, i no el model base, com el coll d'ampolla principal.

Voyager: Les biblioteques de competències com a base per a l'aprenentatge permanent d'agents d'IA

Voyager, un agent de Minecraft basat en GPT-4 de NVIDIA i Caltech, demostra que una biblioteca de competències de codi persistent permet un aprenentatge permanent genuí sense ajustos fins, descobrint 3,3 vegades més ítems que l'estat de l'art anterior. El patró s'aplica directament a l'automatització del llibre major de Beancount a llarg termini, tot i que la correcció financera exigeix capes de proves que els entorns de sandbox de jocs mai requereixen.

AutoGen: Marcs de conversació multiagent per a la IA financera

AutoGen (Wu et al., 2023) presenta un marc de conversació multiagent on els agents basats en LLM s'intercanvien missatges per completar tasques; una configuració de dos agents augmenta la precisió de la referència MATH del 55% al 69%, i un agent SafeGuard dedicat millora la detecció de codi insegur fins a 35 punts F1 — troballes directament aplicables a la construcció de fluxos d'automatització de Beancount segurs i modulars.

CodeAct: Per què el codi Python executable fa que els agents LLM siguin un 20% més precisos

CodeAct (ICML 2024) substitueix les crides d'eines JSON per codi Python executable, millorant les taxes d'èxit dels agents GPT-4 en uns 20 punts percentuals en tasques multi-eina i reduint els torns d'interacció en un 30%, amb implicacions directes per a la construcció d'agents de conciliació de Beancount fiables.

CRITIC: Per què l'autocorrecció dels LLM requereix retroacció d'eines externes

CRITIC (ICLR 2024) aconsegueix guanys de 7,7 en F1 en QA de domini obert i una reducció de la toxicitat del 79,2% en basar la revisió de l'LLM en senyals d'eines externes — un bucle de verificar i després corregir que es trasllada directament a la seguretat d'escriptura per als agents financers de Beancount.

ReAct: Sinergia de raonament i acció en models de llenguatge

ReAct (Yao et al., ICLR 2023) entrellaça el raonament de cadena de pensament amb accions d'eines en una sola trajectòria, superant el CoT pur en la verificació de fets i l'aprenentatge per imitació en tasques encarnades en 34 punts percentuals. Aquesta anàlisi cobreix els modes de fallada de l'article —distracció induïda per la cerca i errors compostos— i què signifiquen per als agents autònoms que escriuen en llibres majors de Beancount.