Mike Thrift
Marketing Manager
FinRAGBench-V: RAG multimodal con citas visuales en el dominio financiero
FinRAGBench-V (EMNLP 2025) es el primer benchmark a gran escala para RAG multimodal con citas visuales en finanzas, que abarca más de 112,000 páginas de documentos y 1,394 pares de preguntas y respuestas anotados por humanos. Los modelos principales logran solo un 20–61% de recuperación de citas a nivel de bloque, y la recuperación multimodal supera a la de solo texto por casi 50 puntos porcentuales.
¿Pueden los agentes de LLM ser Directores Financieros? La simulación de 132 meses de EnterpriseArena revela una brecha considerable
EnterpriseArena pone a prueba 11 LLMs mediante una simulación de CFO de 132 meses rastreando la supervivencia, la valoración final y las tasas de cierre de libros. Solo Qwen3.5-9B sobrevive al 80% de las ejecuciones; GPT-5.4 y DeepSeek-V3.1 alcanzan el 0%. Los expertos humanos logran una supervivencia del 100% con un valor terminal 5 veces superior. El cuello de botella crítico es que los LLMs omiten la conciliación del libro mayor el 80% de las veces, actuando sobre un estado financiero obsoleto.
WildToolBench: Por qué ningún LLM supera el 15% de precisión de sesión en el uso de herramientas en el mundo real
WildToolBench (ICLR 2026) evalúa 57 LLMs en 1.024 tareas extraídas del comportamiento real del usuario; ningún modelo supera el 15% de precisión por sesión, con la orquestación compositiva, la intención oculta y las transiciones de instrucciones como los tres modos de fallo más agudos.
Confianza y calibración de LLM: Un estudio de lo que la investigación muestra realmente
Un estudio sistemático de los métodos de estimación de confianza y calibración de LLM —enfoques de logits de caja blanca, SelfCheckGPT basado en consistencia y entropía semántica— revela que las puntuaciones de confianza verbalizada de GPT-4 alcanzan solo un AUROC de ~62,7%, apenas por encima del azar, con implicaciones directas para el despliegue de agentes conscientes de la incertidumbre en finanzas y contabilidad.
JSONSchemaBench: La complejidad de los esquemas del mundo real rompe las garantías de salida estructurada de los LLM
JSONSchemaBench evalúa 9.558 esquemas JSON del mundo real frente a seis frameworks de decodificación restringida y descubre que la complejidad de los esquemas provoca que la cobertura colapse del 86% en esquemas simples al 3% en los complejos, con XGrammar emitiendo silenciosamente 38 salidas no conformes y ningún framework cubriendo las 45 categorías de características de JSON Schema.
FinMCP-Bench: Benchmarking de agentes de LLM para el uso de herramientas financieras del mundo real bajo MCP
FinMCP-Bench evalúa seis modelos de LLM en 613 tareas de uso de herramientas financieras del mundo real respaldadas por 65 servidores MCP; el mejor modelo obtiene una puntuación de coincidencia exacta del 3,08% en tareas de múltiples turnos, lo que revela un colapso del rendimiento de 20 veces desde escenarios de una sola herramienta a múltiples turnos.
FinTrace: Evaluación a Nivel de Trayectoria del Llamado a Herramientas de LLM para Tareas Financieras
FinTrace evalúa 13 LLM en 800 trayectorias de tareas financieras anotadas por expertos a través de 9 métricas, encontrando que los modelos de frontera logran una sólida selección de herramientas (F1 ~0,9) pero solo obtienen 3,23/5 en utilización de información, el paso donde los agentes razonan sobre lo que devuelven las herramientas.
FinToolBench: Evaluación de agentes de LLM en el uso de herramientas financieras del mundo real
FinToolBench combina 760 herramientas de API financieras en vivo con 295 consultas ejecutables para evaluar agentes de LLM en tareas financieras del mundo real, encontrando que la tasa de invocación conservadora del 22,7% de GPT-4o produce una mayor calidad de respuesta (CSS 0,670) que la TIR agresiva del 87,1% de Qwen3-8B, mientras que el desajuste de intención supera el 50% en todos los modelos probados.
OmniEval: Benchmark de evaluación RAG omnidireccional para el dominio financiero
OmniEval (EMNLP 2025) evalúa los sistemas RAG en 5 tipos de tareas × 16 temas financieros utilizando 11,4 mil casos de prueba autogenerados. Los mejores sistemas logran solo un 36% de precisión numérica; evidencia concreta de que los flujos RAG necesitan capas de validación antes de escribir en libros contables financieros estructurados.
Estudio sobre detección de anomalías con LLM (NAACL 2025): taxonomía sólida, cobertura tabular ausente
Una lectura crítica del estudio de Xu y Ding para NAACL 2025 sobre detección de anomalías y OOD basada en LLM. La taxonomía detección vs. generación se mantiene, pero la casi total ausencia de cobertura tabular obliga a los profesionales de la IA financiera a sintetizar ellos mismos las ideas de los modelos de visión.
Encontrado en el medio: La calibración del sesgo de atención posicional mejora el RAG de contexto largo
Una calibración en tiempo de inferencia sin entrenamiento resta el sesgo posicional de los pesos de atención de los LLM, recuperando hasta 15 puntos porcentuales de precisión de RAG cuando los documentos recuperados están enterrados en el medio del contexto — y lo que esto significa para los flujos de agentes específicos de finanzas.
Aplazamiento con Conciencia de Incertidumbre para Agentes LLM: Cuándo Escalar de Modelos Pequeños a Grandes
ReDAct ejecuta un modelo pequeño por defecto y escala a uno costoso solo cuando la perplejidad a nivel de token indica incertidumbre, logrando un ahorro de costos del 64% respecto a usar solo GPT-5.2 y manteniendo o superando su precisión; un patrón aplicable directamente a los agentes de categorización de transacciones de Beancount.