10 entrades etiquetades amb "Reconciliation"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

FinRAGBench-V (EMNLP 2025) és el primer banc de proves a gran escala per a RAG multimodal amb citacions visuals en finances, que cobreix més de 112.000 pàgines de documents i 1.394 parells de preguntes i respostes anotats per humans. Els models superiors només aconsegueixen una recuperació de citacions a nivell de bloc del 20–61%, i la recuperació multimodal supera la de només text en gairebé 50 punts percentuals.

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Poden els agents LLM ser CFO? La simulació de 132 mesos d'EnterpriseArena revela una gran bretxa

EnterpriseArena posa a prova 11 LLM a través d'una simulació de CFO de 132 mesos seguint la supervivència, la valoració final i les taxes de tancament de llibres. Només Qwen3.5-9B sobreviu al 80% de les execucions; GPT-5.4 i DeepSeek-V3.1 arriben al 0%. Els experts humans aconsegueixen una supervivència del 100% amb 5 vegades el valor final. El coll d'ampolla crític: els LLM ometen la conciliació del llibre major el 80% de les vegades, actuant sobre un estat financer obsolet.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking d'agents LLM per a l'ús d'eines financeres del món real sota MCP

FinMCP-Bench avalua sis models LLM en 613 tasques reals d'ús d'eines financeres amb el suport de 65 servidors MCP: el millor model obté un 3,08% de coincidència exacta en tasques de múltiples torns, revelant un col·lapse del rendiment de 20 vegades des d'escenaris d'una sola eina a múltiples torns.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Trobats al mig: el calibratge del biaix d'atenció posicional millora el RAG de context llarg

Un calibratge en temps d'inferència sense entrenament resta el biaix posicional dels pesos d'atenció de l'LLM, recuperant fins a 15 punts percentuals de precisió en RAG quan els documents recuperats estan enterrats al mig del context, i què significa això per als fluxos de treball d'agents financers.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

Fin-RATE avalua 17 LLM en 7.500 parells de preguntes i respostes seleccionades per experts de 2.472 documents de la SEC, revelant un col·lapse de la precisió del 18,60% en el seguiment longitudinal i una caiguda de 54 punts per al model Fin-R1 especialitzat en finances en tasques entre entitats, amb el pipeline de recuperació, i no el model base, com el coll d'ampolla principal.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Les biblioteques de competències com a base per a l'aprenentatge permanent d'agents d'IA

Voyager, un agent de Minecraft basat en GPT-4 de NVIDIA i Caltech, demostra que una biblioteca de competències de codi persistent permet un aprenentatge permanent genuí sense ajustos fins, descobrint 3,3 vegades més ítems que l'estat de l'art anterior. El patró s'aplica directament a l'automatització del llibre major de Beancount a llarg termini, tot i que la correcció financera exigeix capes de proves que els entorns de sandbox de jocs mai requereixen.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Marcs de conversació multiagent per a la IA financera

AutoGen (Wu et al., 2023) presenta un marc de conversació multiagent on els agents basats en LLM s'intercanvien missatges per completar tasques; una configuració de dos agents augmenta la precisió de la referència MATH del 55% al 69%, i un agent SafeGuard dedicat millora la detecció de codi insegur fins a 35 punts F1 — troballes directament aplicables a la construcció de fluxos d'automatització de Beancount segurs i modulars.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: Per què el codi Python executable fa que els agents LLM siguin un 20% més precisos

CodeAct (ICML 2024) substitueix les crides d'eines JSON per codi Python executable, millorant les taxes d'èxit dels agents GPT-4 en uns 20 punts percentuals en tasques multi-eina i reduint els torns d'interacció en un 30%, amb implicacions directes per a la construcció d'agents de conciliació de Beancount fiables.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Per què l'autocorrecció dels LLM requereix retroacció d'eines externes

CRITIC (ICLR 2024) aconsegueix guanys de 7,7 en F1 en QA de domini obert i una reducció de la toxicitat del 79,2% en basar la revisió de l'LLM en senyals d'eines externes — un bucle de verificar i després corregir que es trasllada directament a la seguretat d'escriptura per als agents financers de Beancount.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Sinergia de raonament i acció en models de llenguatge

ReAct (Yao et al., ICLR 2023) entrellaça el raonament de cadena de pensament amb accions d'eines en una sola trajectòria, superant el CoT pur en la verificació de fets i l'aprenentatge per imitació en tasques encarnades en 34 punts percentuals. Aquesta anàlisi cobreix els modes de fallada de l'article —distracció induïda per la cerca i errors compostos— i què signifiquen per als agents autònoms que escriuen en llibres majors de Beancount.

Tot Sobre Reconciliation

FinRAGBench-V: RAG multimodal amb citacions visuals en l'àmbit financer

Poden els agents LLM ser CFO? La simulació de 132 mesos d'EnterpriseArena revela una gran bretxa

FinMCP-Bench: Benchmarking d'agents LLM per a l'ús d'eines financeres del món real sota MCP

Trobats al mig: el calibratge del biaix d'atenció posicional millora el RAG de context llarg

Fin-RATE: Com els LLM fallen en l'anàlisi financera entre períodes i entre entitats

Voyager: Les biblioteques de competències com a base per a l'aprenentatge permanent d'agents d'IA

AutoGen: Marcs de conversació multiagent per a la IA financera

CodeAct: Per què el codi Python executable fa que els agents LLM siguin un 20% més precisos

CRITIC: Per què l'autocorrecció dels LLM requereix retroacció d'eines externes

ReAct: Sinergia de raonament i acció en models de llenguatge

Comença amb Beancount.io

Primers passos

Funcions

Comunitat

Legal