8 publicaciones etiquetadas con "Analytics"

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Estudio sobre detección de anomalías con LLM (NAACL 2025): taxonomía sólida, cobertura tabular ausente

Una lectura crítica del estudio de Xu y Ding para NAACL 2025 sobre detección de anomalías y OOD basada en LLM. La taxonomía detección vs. generación se mantiene, pero la casi total ausencia de cobertura tabular obliga a los profesionales de la IA financiera a sintetizar ellos mismos las ideas de los modelos de visión.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Cómo fallan los LLM en el análisis financiero entre periodos y entre entidades

Fin-RATE evalúa 17 LLM con 7,500 pares de preguntas y respuestas seleccionados por expertos a partir de 2,472 presentaciones de la SEC, revelando un colapso de precisión del 18.60% en el seguimiento longitudinal y una caída de 54 puntos para el modelo especializado Fin-R1 en tareas entre entidades, señalando al sistema de recuperación, y no al modelo base, como el cuello de botella limitante.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perdidos en el medio: El sesgo de posición en los LLM y su impacto en la IA financiera

El artículo de TACL 2024 de Liu et al. muestra que los LLM rinden hasta 20 puntos peor con información enterrada en el medio de contextos largos —una degradación en forma de U que afecta a todos los modelos probados, incluido Claude-1.3-100K— con implicaciones concretas sobre cómo los pipelines de RAG deben ordenar los pasajes recuperados en aplicaciones de finanzas y contabilidad.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

AD-LLM Benchmark: GPT-4o alcanza un AUROC de 0,93+ en Zero-Shot para la detección de anomalías en texto

AD-LLM evalúa GPT-4o y Llama 3.1 8B en tres roles de detección de anomalías (detector zero-shot, aumentador de datos y selector de modelos) en cinco conjuntos de datos de PNL; GPT-4o alcanza un AUROC de 0,93–0,99 en zero-shot, pero la selección de modelos basada en LLM sigue siendo poco fiable, con implicaciones directas para la IA en auditoría financiera.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Midiendo la confiabilidad de los agentes de IA en dominios de uso de herramientas del mundo real

τ-bench muestra que los LLM de primer nivel como Claude 3.5 Sonnet caen de un pass@1 de 0.692 a un pass@4 de 0.462 en tareas de servicio al cliente minorista — un abismo de consistencia con implicaciones directas para cualquier agente de escritura que opere en un libro mayor de Beancount.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: QA financiero de turnos múltiples y la brecha de 21 puntos entre modelos y expertos humanos

ConvFinQA (EMNLP 2022) extiende FinQA a conversaciones de turnos múltiples sobre informes de ganancias del S&P 500, encontrando que el mejor modelo ajustado logra una precisión de ejecución del 68,9% frente al 89,4% de los expertos humanos, y cae al 52,4% en conversaciones híbridas de múltiples aspectos donde los modelos deben mantener el contexto numérico a través de diferentes temas financieros.

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Por qué el RAG de almacenamiento de vectores falla con documentos financieros reales

FinanceBench evalúa 16 configuraciones de IA frente a 10,231 preguntas de presentaciones reales ante la SEC; el RAG de almacenamiento de vectores compartido responde correctamente solo el 19% de las veces, e incluso GPT-4-Turbo con el pasaje del oráculo alcanza solo el 85% de precisión, lo que demuestra que el razonamiento numérico, no la recuperación, es la limitación crítica para la IA financiera empresarial.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Autoconsistencia: El muestreo por voto mayoritario aumenta la precisión de la cadena de pensamiento

La autoconsistencia reemplaza la decodificación codiciosa de la cadena de pensamiento con un voto mayoritario sobre N rutas de razonamiento muestreadas — aumentando la precisión de GPT-3 en GSM8K en 17,9 puntos porcentuales sin ajuste fino — y se aplica directamente a cálculos financieros de varios pasos donde una sola decodificación de LLM no es confiable.

Todo sobre Analytics

Estudio sobre detección de anomalías con LLM (NAACL 2025): taxonomía sólida, cobertura tabular ausente

Fin-RATE: Cómo fallan los LLM en el análisis financiero entre periodos y entre entidades

Perdidos en el medio: El sesgo de posición en los LLM y su impacto en la IA financiera

AD-LLM Benchmark: GPT-4o alcanza un AUROC de 0,93+ en Zero-Shot para la detección de anomalías en texto

τ-bench: Midiendo la confiabilidad de los agentes de IA en dominios de uso de herramientas del mundo real

ConvFinQA: QA financiero de turnos múltiples y la brecha de 21 puntos entre modelos y expertos humanos

FinanceBench: Por qué el RAG de almacenamiento de vectores falla con documentos financieros reales

Autoconsistencia: El muestreo por voto mayoritario aumenta la precisión de la cadena de pensamiento

Comience con Beancount.io

Primeros pasos

Funciones

Comunidad

Legal