Ir al contenido principal
Data Science

Todo sobre Data Science

40 artículos
Data science methods applied to financial datasets and accounting workflows

FinRAGBench-V: RAG multimodal con citas visuales en el dominio financiero

FinRAGBench-V (EMNLP 2025) es el primer benchmark a gran escala para RAG multimodal con citas visuales en finanzas, que abarca más de 112,000 páginas de documentos y 1,394 pares de preguntas y respuestas anotados por humanos. Los modelos principales logran solo un 20–61% de recuperación de citas a nivel de bloque, y la recuperación multimodal supera a la de solo texto por casi 50 puntos porcentuales.

Confianza y calibración de LLM: Un estudio de lo que la investigación muestra realmente

Un estudio sistemático de los métodos de estimación de confianza y calibración de LLM —enfoques de logits de caja blanca, SelfCheckGPT basado en consistencia y entropía semántica— revela que las puntuaciones de confianza verbalizada de GPT-4 alcanzan solo un AUROC de ~62,7%, apenas por encima del azar, con implicaciones directas para el despliegue de agentes conscientes de la incertidumbre en finanzas y contabilidad.

FinToolBench: Evaluación de agentes de LLM en el uso de herramientas financieras del mundo real

FinToolBench combina 760 herramientas de API financieras en vivo con 295 consultas ejecutables para evaluar agentes de LLM en tareas financieras del mundo real, encontrando que la tasa de invocación conservadora del 22,7% de GPT-4o produce una mayor calidad de respuesta (CSS 0,670) que la TIR agresiva del 87,1% de Qwen3-8B, mientras que el desajuste de intención supera el 50% en todos los modelos probados.

OmniEval: Benchmark de evaluación RAG omnidireccional para el dominio financiero

OmniEval (EMNLP 2025) evalúa los sistemas RAG en 5 tipos de tareas × 16 temas financieros utilizando 11,4 mil casos de prueba autogenerados. Los mejores sistemas logran solo un 36% de precisión numérica; evidencia concreta de que los flujos RAG necesitan capas de validación antes de escribir en libros contables financieros estructurados.

Estudio sobre detección de anomalías con LLM (NAACL 2025): taxonomía sólida, cobertura tabular ausente

Una lectura crítica del estudio de Xu y Ding para NAACL 2025 sobre detección de anomalías y OOD basada en LLM. La taxonomía detección vs. generación se mantiene, pero la casi total ausencia de cobertura tabular obliga a los profesionales de la IA financiera a sintetizar ellos mismos las ideas de los modelos de visión.

Encontrado en el medio: La calibración del sesgo de atención posicional mejora el RAG de contexto largo

Una calibración en tiempo de inferencia sin entrenamiento resta el sesgo posicional de los pesos de atención de los LLM, recuperando hasta 15 puntos porcentuales de precisión de RAG cuando los documentos recuperados están enterrados en el medio del contexto — y lo que esto significa para los flujos de agentes específicos de finanzas.

Fin-RATE: Cómo fallan los LLM en el análisis financiero entre periodos y entre entidades

Fin-RATE evalúa 17 LLM con 7,500 pares de preguntas y respuestas seleccionados por expertos a partir de 2,472 presentaciones de la SEC, revelando un colapso de precisión del 18.60% en el seguimiento longitudinal y una caída de 54 puntos para el modelo especializado Fin-R1 en tareas entre entidades, señalando al sistema de recuperación, y no al modelo base, como el cuello de botella limitante.

FinDER: Consultas Reales de Analistas Exponen una Brecha de Recuperación del 74% en RAG Financiero

FinDER evalúa RAG sobre 5,703 consultas reales de analistas de fondos de cobertura frente a presentaciones 10-K del S&P 500; E5-Mistral logra solo un 25.95% de recuperación de contexto, y las consultas con muchas abreviaturas cuestan 8.2 puntos de precisión — evidencia de que la normalización de consultas, y no mejores embeddings, es la primera solución para los pipelines de IA en finanzas.

Perdidos en el medio: El sesgo de posición en los LLM y su impacto en la IA financiera

El artículo de TACL 2024 de Liu et al. muestra que los LLM rinden hasta 20 puntos peor con información enterrada en el medio de contextos largos —una degradación en forma de U que afecta a todos los modelos probados, incluido Claude-1.3-100K— con implicaciones concretas sobre cómo los pipelines de RAG deben ordenar los pasajes recuperados en aplicaciones de finanzas y contabilidad.