Ir al contenido principal
Finance

Todo sobre Finance

35 artículos
Financial research, analysis, and domain knowledge for accounting AI

FinRAGBench-V: RAG multimodal con citas visuales en el dominio financiero

FinRAGBench-V (EMNLP 2025) es el primer benchmark a gran escala para RAG multimodal con citas visuales en finanzas, que abarca más de 112,000 páginas de documentos y 1,394 pares de preguntas y respuestas anotados por humanos. Los modelos principales logran solo un 20–61% de recuperación de citas a nivel de bloque, y la recuperación multimodal supera a la de solo texto por casi 50 puntos porcentuales.

Confianza y calibración de LLM: Un estudio de lo que la investigación muestra realmente

Un estudio sistemático de los métodos de estimación de confianza y calibración de LLM —enfoques de logits de caja blanca, SelfCheckGPT basado en consistencia y entropía semántica— revela que las puntuaciones de confianza verbalizada de GPT-4 alcanzan solo un AUROC de ~62,7%, apenas por encima del azar, con implicaciones directas para el despliegue de agentes conscientes de la incertidumbre en finanzas y contabilidad.

FinTrace: Evaluación a Nivel de Trayectoria del Llamado a Herramientas de LLM para Tareas Financieras

FinTrace evalúa 13 LLM en 800 trayectorias de tareas financieras anotadas por expertos a través de 9 métricas, encontrando que los modelos de frontera logran una sólida selección de herramientas (F1 ~0,9) pero solo obtienen 3,23/5 en utilización de información, el paso donde los agentes razonan sobre lo que devuelven las herramientas.

OmniEval: Benchmark de evaluación RAG omnidireccional para el dominio financiero

OmniEval (EMNLP 2025) evalúa los sistemas RAG en 5 tipos de tareas × 16 temas financieros utilizando 11,4 mil casos de prueba autogenerados. Los mejores sistemas logran solo un 36% de precisión numérica; evidencia concreta de que los flujos RAG necesitan capas de validación antes de escribir en libros contables financieros estructurados.

FinDER: Consultas Reales de Analistas Exponen una Brecha de Recuperación del 74% en RAG Financiero

FinDER evalúa RAG sobre 5,703 consultas reales de analistas de fondos de cobertura frente a presentaciones 10-K del S&P 500; E5-Mistral logra solo un 25.95% de recuperación de contexto, y las consultas con muchas abreviaturas cuestan 8.2 puntos de precisión — evidencia de que la normalización de consultas, y no mejores embeddings, es la primera solución para los pipelines de IA en finanzas.

Perdidos en el medio: El sesgo de posición en los LLM y su impacto en la IA financiera

El artículo de TACL 2024 de Liu et al. muestra que los LLM rinden hasta 20 puntos peor con información enterrada en el medio de contextos largos —una degradación en forma de U que afecta a todos los modelos probados, incluido Claude-1.3-100K— con implicaciones concretas sobre cómo los pipelines de RAG deben ordenar los pasajes recuperados en aplicaciones de finanzas y contabilidad.

AnoLLM: Ajuste Fino de LLMs para la Detección de Anomalías Tabulares en Datos Financieros

AnoLLM (ICLR 2025) reformula la detección de anomalías tabulares como una estimación de densidad de LLM: entrenamiento mediante ajuste fino con filas normales y puntuación mediante verosimilitud logarítmica negativa. Supera a los métodos clásicos en conjuntos de datos de fraude de tipo mixto, pero no ofrece ventajas en datos puramente numéricos, lo que tiene implicaciones reales para la detección de anomalías en los asientos contables de Beancount.

DocFinQA: Razonamiento financiero de contexto largo en presentaciones completas de la SEC

DocFinQA sustituye los pasajes curados de 700 palabras de FinQA por presentaciones completas ante la SEC de 123.000 palabras, exponiendo un aumento de contexto de 175 veces que casi reduce a la mitad la precisión de GPT-4 en documentos largos. Los canales de recuperación no logran extraer el fragmento correcto el 45% de las veces en HR@3, y los modelos de contexto largo no son un sustituto.

TheAgentCompany: Evaluación Comparativa de Agentes de LLM en Tareas Empresariales del Mundo Real

TheAgentCompany pone a prueba 175 tareas reales en el lugar de trabajo a través de una intranet simulada con GitLab, OwnCloud y RocketChat. El mejor modelo (Gemini-2.5-Pro) completa solo el 30% de las tareas a un costo de $4 cada una, revelando que los agentes autónomos aún están lejos de ser viables para los flujos de trabajo de contabilidad y finanzas.

InvestorBench: Evaluación comparativa de agentes de LLM en decisiones de trading financiero

InvestorBench (ACL 2025) evalúa 13 arquitecturas de LLM en trading retroactivo de acciones, criptomonedas y ETF utilizando el rendimiento acumulado y el ratio de Sharpe, en lugar de la precisión de preguntas y respuestas. Qwen2.5-72B lidera la tabla de acciones con un 46.15% de CR; los modelos ajustados para finanzas fallan en las acciones. El tamaño del modelo predice el rendimiento de forma más fiable que el ajuste fino de dominio.