Ir al contenido principal
Transaction Validation

Todo sobre Transaction Validation

4 artículos
Validating and verifying financial transactions using language model agents

Los LLM obtienen un 2,3% en la generación de DSL de Beancount: El benchmark LLMFinLiteracy

El benchmark LLMFinLiteracy revela que cinco modelos de pesos abiertos de ~7B generan transacciones de Beancount totalmente correctas solo el 2,3% de las veces, con fallos concentrados en el razonamiento contable —no en la sintaxis—, lo que señala al feedback del compilador en el bucle como el ingrediente crítico que falta para agentes de escritura fiables.

GuardAgent: Cumplimiento de seguridad determinista para agentes de LLM mediante ejecución de código

GuardAgent (ICML 2025) sitúa un agente de LLM independiente entre un agente objetivo y su entorno, verificando cada acción propuesta mediante la generación y ejecución de código Python; logra una precisión del 98.7% en la aplicación de políticas y mantiene el 100% de la finalización de tareas, en comparación con el 81% de precisión y el 29-71% de fallos en tareas de las reglas de seguridad integradas en el prompt.

Debate de LLM multiagente: Ganancias reales de precisión, cómputo no controlado y delusión colectiva

Una lectura detallada del artículo sobre debate multiagente de Du et al. en ICML 2024 —que informa ganancias de precisión de 14.8 puntos en aritmética— junto con refutaciones de 2025 que muestran que los agentes individuales con el mismo presupuesto igualan el rendimiento del debate, y un análisis de por qué la delusión colectiva (65% de los fallos del debate) plantea riesgos específicos para los registros asistidos por IA.

CRITIC: Por qué la autocorrección de los LLM requiere retroalimentación de herramientas externas

CRITIC (ICLR 2024) logra mejoras de 7.7 en F1 en QA de dominio abierto y una reducción de toxicidad del 79.2% al basar la revisión de los LLM en señales de herramientas externas — un bucle de verificar-luego-corregir que se aplica directamente a la seguridad de escritura para agentes financieros de Beancount.