Mike Thrift

Marketing Manager

July 12, 2026·mike

FinRAGBench-V: RAG multimodal con citas visuales en el dominio financiero

FinRAGBench-V (EMNLP 2025) es el primer benchmark a gran escala para RAG multimodal con citas visuales en finanzas, que abarca más de 112,000 páginas de documentos y 1,394 pares de preguntas y respuestas anotados por humanos. Los modelos principales logran solo un 20–61% de recuperación de citas a nivel de bloque, y la recuperación multimodal supera a la de solo texto por casi 50 puntos porcentuales.

llm

machine-learning

July 11, 2026·mike

¿Pueden los agentes de LLM ser Directores Financieros? La simulación de 132 meses de EnterpriseArena revela una brecha considerable

EnterpriseArena pone a prueba 11 LLMs mediante una simulación de CFO de 132 meses rastreando la supervivencia, la valoración final y las tasas de cierre de libros. Solo Qwen3.5-9B sobrevive al 80% de las ejecuciones; GPT-5.4 y DeepSeek-V3.1 alcanzan el 0%. Los expertos humanos logran una supervivencia del 100% con un valor terminal 5 veces superior. El cuello de botella crítico es que los LLMs omiten la conciliación del libro mayor el 80% de las veces, actuando sobre un estado financiero obsoleto.

llm

automation

July 10, 2026·mike

WildToolBench: Por qué ningún LLM supera el 15% de precisión de sesión en el uso de herramientas en el mundo real

WildToolBench (ICLR 2026) evalúa 57 LLMs en 1.024 tareas extraídas del comportamiento real del usuario; ningún modelo supera el 15% de precisión por sesión, con la orquestación compositiva, la intención oculta y las transiciones de instrucciones como los tres modos de fallo más agudos.

llm

automation

July 9, 2026·mike

Confianza y calibración de LLM: Un estudio de lo que la investigación muestra realmente

Un estudio sistemático de los métodos de estimación de confianza y calibración de LLM —enfoques de logits de caja blanca, SelfCheckGPT basado en consistencia y entropía semántica— revela que las puntuaciones de confianza verbalizada de GPT-4 alcanzan solo un AUROC de ~62,7%, apenas por encima del azar, con implicaciones directas para el despliegue de agentes conscientes de la incertidumbre en finanzas y contabilidad.

llm

machine-learning

July 8, 2026·mike

JSONSchemaBench: La complejidad de los esquemas del mundo real rompe las garantías de salida estructurada de los LLM

JSONSchemaBench evalúa 9.558 esquemas JSON del mundo real frente a seis frameworks de decodificación restringida y descubre que la complejidad de los esquemas provoca que la cobertura colapse del 86% en esquemas simples al 3% en los complejos, con XGrammar emitiendo silenciosamente 38 salidas no conformes y ningún framework cubriendo las 45 categorías de características de JSON Schema.

llm

machine-learning

July 7, 2026·mike

FinMCP-Bench: Benchmarking de agentes de LLM para el uso de herramientas financieras del mundo real bajo MCP

FinMCP-Bench evalúa seis modelos de LLM en 613 tareas de uso de herramientas financieras del mundo real respaldadas por 65 servidores MCP; el mejor modelo obtiene una puntuación de coincidencia exacta del 3,08% en tareas de múltiples turnos, lo que revela un colapso del rendimiento de 20 veces desde escenarios de una sola herramienta a múltiples turnos.

llm

automation

July 6, 2026·mike

FinTrace: Evaluación a Nivel de Trayectoria del Llamado a Herramientas de LLM para Tareas Financieras

FinTrace evalúa 13 LLM en 800 trayectorias de tareas financieras anotadas por expertos a través de 9 métricas, encontrando que los modelos de frontera logran una sólida selección de herramientas (F1 ~0,9) pero solo obtienen 3,23/5 en utilización de información, el paso donde los agentes razonan sobre lo que devuelven las herramientas.

llm

finance

July 5, 2026·mike

FinToolBench: Evaluación de agentes de LLM en el uso de herramientas financieras del mundo real

FinToolBench combina 760 herramientas de API financieras en vivo con 295 consultas ejecutables para evaluar agentes de LLM en tareas financieras del mundo real, encontrando que la tasa de invocación conservadora del 22,7% de GPT-4o produce una mayor calidad de respuesta (CSS 0,670) que la TIR agresiva del 87,1% de Qwen3-8B, mientras que el desajuste de intención supera el 50% en todos los modelos probados.

llm

automation

July 4, 2026·mike

OmniEval: Benchmark de evaluación RAG omnidireccional para el dominio financiero

OmniEval (EMNLP 2025) evalúa los sistemas RAG en 5 tipos de tareas × 16 temas financieros utilizando 11,4 mil casos de prueba autogenerados. Los mejores sistemas logran solo un 36% de precisión numérica; evidencia concreta de que los flujos RAG necesitan capas de validación antes de escribir en libros contables financieros estructurados.

machine-learning

llm

July 3, 2026·mike

Estudio sobre detección de anomalías con LLM (NAACL 2025): taxonomía sólida, cobertura tabular ausente

Una lectura crítica del estudio de Xu y Ding para NAACL 2025 sobre detección de anomalías y OOD basada en LLM. La taxonomía detección vs. generación se mantiene, pero la casi total ausencia de cobertura tabular obliga a los profesionales de la IA financiera a sintetizar ellos mismos las ideas de los modelos de visión.

llm

machine-learning

July 2, 2026·mike

Encontrado en el medio: La calibración del sesgo de atención posicional mejora el RAG de contexto largo

Una calibración en tiempo de inferencia sin entrenamiento resta el sesgo posicional de los pesos de atención de los LLM, recuperando hasta 15 puntos porcentuales de precisión de RAG cuando los documentos recuperados están enterrados en el medio del contexto — y lo que esto significa para los flujos de agentes específicos de finanzas.

llm

machine-learning

July 1, 2026·mike

Aplazamiento con Conciencia de Incertidumbre para Agentes LLM: Cuándo Escalar de Modelos Pequeños a Grandes

ReDAct ejecuta un modelo pequeño por defecto y escala a uno costoso solo cuando la perplejidad a nivel de token indica incertidumbre, logrando un ahorro de costos del 64% respecto a usar solo GPT-5.2 y manteniendo o superando su precisión; un patrón aplicable directamente a los agentes de categorización de transacciones de Beancount.

llm

automation

Mostrando 1–12 de 87 artículos

1 / 8Siguiente