Ir al contenido principal
Trust

Todo sobre Trust

8 artículos
Reliability, calibration, and hallucination in financial AI systems

Confianza y calibración de LLM: Un estudio de lo que la investigación muestra realmente

Un estudio sistemático de los métodos de estimación de confianza y calibración de LLM —enfoques de logits de caja blanca, SelfCheckGPT basado en consistencia y entropía semántica— revela que las puntuaciones de confianza verbalizada de GPT-4 alcanzan solo un AUROC de ~62,7%, apenas por encima del azar, con implicaciones directas para el despliegue de agentes conscientes de la incertidumbre en finanzas y contabilidad.

Aplazamiento con Conciencia de Incertidumbre para Agentes LLM: Cuándo Escalar de Modelos Pequeños a Grandes

ReDAct ejecuta un modelo pequeño por defecto y escala a uno costoso solo cuando la perplejidad a nivel de token indica incertidumbre, logrando un ahorro de costos del 64% respecto a usar solo GPT-5.2 y manteniendo o superando su precisión; un patrón aplicable directamente a los agentes de categorización de transacciones de Beancount.

Uso de herramientas verificablemente seguro para agentes de LLM: STPA se encuentra con MCP

Investigadores de CMU y NC State proponen el uso del Análisis de Procesos Sistémico-Teóricos (STPA) y un Protocolo de Contexto de Modelo mejorado con capacidades para derivar especificaciones de seguridad formales para el uso de herramientas por parte de agentes de LLM, con una verificación basada en Alloy que demuestra la ausencia de flujos inseguros en un caso de estudio de programación de calendarios.

AGrail: Pasarelas de Seguridad Adaptativas para Agentes de LLM que Aprenden a través de Tareas

AGrail (ACL 2025) presenta una pasarela cooperativa de dos LLM que adapta las comprobaciones de seguridad en el momento de la inferencia mediante la adaptación en tiempo de prueba, logrando un 0% de éxito en ataques de inyección de prompts y un 95,6% de preservación de acciones benignas en Safe-OS — en comparación con GuardAgent y LLaMA-Guard que bloquean hasta el 49,2% de las acciones legítimas.

ShieldAgent: Razonamiento Verificable de Políticas de Seguridad para Agentes LLM

ShieldAgent (ICML 2025) reemplaza las protecciones basadas en LLM con circuitos de reglas probabilísticas construidos sobre Redes Lógicas de Markov, logrando una precisión del 90.4% en ataques a agentes con un 64.7% menos de llamadas a la API — y lo que esto significa para la seguridad verificable en sistemas de IA financiera.

GuardAgent: Cumplimiento de seguridad determinista para agentes de LLM mediante ejecución de código

GuardAgent (ICML 2025) sitúa un agente de LLM independiente entre un agente objetivo y su entorno, verificando cada acción propuesta mediante la generación y ejecución de código Python; logra una precisión del 98.7% en la aplicación de políticas y mantiene el 100% de la finalización de tareas, en comparación con el 81% de precisión y el 29-71% de fallos en tareas de las reglas de seguridad integradas en el prompt.

Los LLM aún no pueden autocorregir su razonamiento — Hallazgos de ICLR 2024 e implicaciones para la IA en finanzas

Huang et al. (ICLR 2024) demuestran que los LLM a los que se les pide revisar su propio razonamiento sin retroalimentación externa degradan sistemáticamente su precisión (GPT-4 cae del 95,5 % al 91,5 % en GSM8K) y analizan qué significa esto para el diseño de agentes confiables de asientos contables en Beancount.

PHANTOM (NeurIPS 2025): Medición de la detección de alucinaciones de LLM en documentos financieros

PHANTOM (NeurIPS 2025) es el primer benchmark para medir la detección de alucinaciones de LLM en presentaciones reales ante la SEC a través de longitudes de contexto de hasta 30.000 tokens. Qwen3-30B-A3B-Thinking lidera con F1=0,882; los modelos de 7B obtienen puntuaciones cercanas al azar, con implicaciones directas para los agentes de contabilidad autónomos.