10 publicaciones etiquetadas con "Reconciliation"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: RAG multimodal con citas visuales en el dominio financiero

FinRAGBench-V (EMNLP 2025) es el primer benchmark a gran escala para RAG multimodal con citas visuales en finanzas, que abarca más de 112,000 páginas de documentos y 1,394 pares de preguntas y respuestas anotados por humanos. Los modelos principales logran solo un 20–61% de recuperación de citas a nivel de bloque, y la recuperación multimodal supera a la de solo texto por casi 50 puntos porcentuales.

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

¿Pueden los agentes de LLM ser Directores Financieros? La simulación de 132 meses de EnterpriseArena revela una brecha considerable

EnterpriseArena pone a prueba 11 LLMs mediante una simulación de CFO de 132 meses rastreando la supervivencia, la valoración final y las tasas de cierre de libros. Solo Qwen3.5-9B sobrevive al 80% de las ejecuciones; GPT-5.4 y DeepSeek-V3.1 alcanzan el 0%. Los expertos humanos logran una supervivencia del 100% con un valor terminal 5 veces superior. El cuello de botella crítico es que los LLMs omiten la conciliación del libro mayor el 80% de las veces, actuando sobre un estado financiero obsoleto.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking de agentes de LLM para el uso de herramientas financieras del mundo real bajo MCP

FinMCP-Bench evalúa seis modelos de LLM en 613 tareas de uso de herramientas financieras del mundo real respaldadas por 65 servidores MCP; el mejor modelo obtiene una puntuación de coincidencia exacta del 3,08% en tareas de múltiples turnos, lo que revela un colapso del rendimiento de 20 veces desde escenarios de una sola herramienta a múltiples turnos.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Encontrado en el medio: La calibración del sesgo de atención posicional mejora el RAG de contexto largo

Una calibración en tiempo de inferencia sin entrenamiento resta el sesgo posicional de los pesos de atención de los LLM, recuperando hasta 15 puntos porcentuales de precisión de RAG cuando los documentos recuperados están enterrados en el medio del contexto — y lo que esto significa para los flujos de agentes específicos de finanzas.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Cómo fallan los LLM en el análisis financiero entre periodos y entre entidades

Fin-RATE evalúa 17 LLM con 7,500 pares de preguntas y respuestas seleccionados por expertos a partir de 2,472 presentaciones de la SEC, revelando un colapso de precisión del 18.60% en el seguimiento longitudinal y una caída de 54 puntos para el modelo especializado Fin-R1 en tareas entre entidades, señalando al sistema de recuperación, y no al modelo base, como el cuello de botella limitante.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Bibliotecas de habilidades como base para el aprendizaje permanente de agentes de IA

Voyager, un agente de Minecraft impulsado por GPT-4 de NVIDIA y Caltech, demuestra que una biblioteca de habilidades de código persistente permite un aprendizaje permanente genuino sin ajuste fino, descubriendo 3,3 veces más elementos que el estado del arte anterior. El patrón se aplica directamente a la automatización de libros mayores de Beancount a largo plazo, aunque la corrección financiera exige capas de entorno de pruebas que los sandboxes de juegos nunca requieren.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Marcos de Conversación Multi-Agente para IA en Finanzas

AutoGen (Wu et al., 2023) introduce un marco de conversación multi-agente donde los agentes respaldados por LLM intercambian mensajes para completar tareas; una configuración de dos agentes eleva la precisión de la referencia MATH del 55% al 69%, y un agente SafeGuard dedicado mejora la detección de código no seguro hasta en 35 puntos F1 — hallazgos directamente aplicables a la creación de flujos de automatización de Beancount seguros y modulares.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: Por qué el código ejecutable de Python hace que los agentes LLM sean un 20% más precisos

CodeAct (ICML 2024) reemplaza las llamadas a herramientas mediante JSON con código Python ejecutable, mejorando las tasas de éxito de los agentes GPT-4 en aproximadamente 20 puntos porcentuales en tareas multiherramienta y reduciendo los turnos de interacción en un 30%, con implicaciones directas para la creación de agentes de conciliación de Beancount confiables.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Por qué la autocorrección de los LLM requiere retroalimentación de herramientas externas

CRITIC (ICLR 2024) logra mejoras de 7.7 en F1 en QA de dominio abierto y una reducción de toxicidad del 79.2% al basar la revisión de los LLM en señales de herramientas externas — un bucle de verificar-luego-corregir que se aplica directamente a la seguridad de escritura para agentes financieros de Beancount.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Sinergia entre Razonamiento y Acción en Modelos de Lenguaje

ReAct (Yao et al., ICLR 2023) entrelaza el razonamiento de cadena de pensamiento con acciones de herramientas en una sola trayectoria, superando al CoT puro en verificación de hechos y al aprendizaje por imitación en tareas encarnadas por 34 puntos porcentuales. Este análisis cubre los modos de falla del artículo —distracción inducida por la búsqueda y errores compuestos— y lo que significan para los agentes autónomos que escriben de vuelta en libros de contabilidad de Beancount.

Todo sobre Reconciliation

FinRAGBench-V: RAG multimodal con citas visuales en el dominio financiero

¿Pueden los agentes de LLM ser Directores Financieros? La simulación de 132 meses de EnterpriseArena revela una brecha considerable

FinMCP-Bench: Benchmarking de agentes de LLM para el uso de herramientas financieras del mundo real bajo MCP

Encontrado en el medio: La calibración del sesgo de atención posicional mejora el RAG de contexto largo

Fin-RATE: Cómo fallan los LLM en el análisis financiero entre periodos y entre entidades

Voyager: Bibliotecas de habilidades como base para el aprendizaje permanente de agentes de IA

AutoGen: Marcos de Conversación Multi-Agente para IA en Finanzas

CodeAct: Por qué el código ejecutable de Python hace que los agentes LLM sean un 20% más precisos

CRITIC: Por qué la autocorrección de los LLM requiere retroalimentación de herramientas externas

ReAct: Sinergia entre Razonamiento y Acción en Modelos de Lenguaje

Comience con Beancount.io

Primeros pasos

Funciones

Comunidad

Legal