FinAuditing: Los LLM obtienen una puntuación inferior al 14% en tareas reales de auditoría SEC XBRL
FinAuditing evalúa a los LLM frente a la complejidad estructurada de las presentaciones SEC XBRL reales, no frente a los pares de preguntas y respuestas pulidos que dominan las tablas de clasificación de PNL financiera. Lo estoy leyendo ahora porque la agenda de auditoría de Bean Labs sigue volviendo a una pregunta que los puntos de referencia existentes no pueden responder: ¿puede un modelo mantener una presentación estructurada completa en memoria y verificar su consistencia interna?
El artículo
Wang et al. presentan FinAuditing, un benchmark de 1,102 instancias extraídas de 218 presentaciones XBRL en SEC EDGAR, que cubren tipos de errores catalogados por el Comité de Calidad de Datos (DQC) de XBRL US. XBRL es el formato legible por máquina que la SEC exige para todas las presentaciones de empresas públicas; cada presentación agrupa un documento de instancia (cifras informadas), un esquema de taxonomía (conceptos contables válidos) y cuatro linkbases —cálculo, presentación, definición y etiqueta— que especifican cómo se relacionan los conceptos entre sí. El benchmark pone en marcha tres subtareas de auditoría: Emparejamiento Semántico Financiero (FinSM, recuperar el concepto de taxonomía correcto para un hecho informado), Extracción de Relaciones Financieras (FinRE, clasificar la relación entre dos nodos de la taxonomía) y Razonamiento Matemático Financiero (FinMR, verificar que las cifras informadas cumplen con las reglas de cálculo definidas por la taxonomía). Las instancias promedian 33,848 tokens —en o más allá del límite de contexto efectivo de muchos modelos de código abierto— y los 13 modelos se prueban en modo zero-shot.
Ideas clave
- FinSM es esencialmente recuperación de taxonomía: dado un hecho en la presentación, encontrar el concepto US-GAAP correcto. DeepSeek-V3 encabeza el campo con una tasa de acierto (Hit Rate@20) del 12.42%; menos de uno de cada ocho aciertos al elegir entre 20 candidatos. GPT-4o logra un 9.09%.
- FinRE (clasificar las relaciones de las linkbases) es la tarea más fácil: GPT-4o alcanza una precisión del 91.82% y un Macro F1 de 90.09. Pero Qwen3-32B y Fino1-14B —ambos comercializados como capaces para finanzas— obtienen un 0.00%, aparentemente colapsando ante el tipo de relación CombinationErr.
- FinMR es brutal: Fino1-14B lidera con un 13.86% de precisión; la mayoría de los modelos se quedan en un solo dígito. El análisis de errores atribuye entre el 70% y el 83% de los fallos a errores aritméticos en reglas de cálculo de varios pasos, mientras que los errores de formato estructural representan entre el 9% y el 71%, dependiendo del modelo.
- Los datos de origen son 4,545 mensajes de error del DQC de presentaciones reales (2020–2024), no ejemplos adversarios sintéticos. El benchmark selecciona los 9 tipos de errores más frecuentes, que cubren el 60.33% de las infracciones reales del DQC.
- Los modelos especializados en el dominio (Fino1-14B, FinR1) no superan sistemáticamente a los grandes modelos de propósito general; Fino1-14B lidera solo en FinMR, e incluso allí su 13.86% está apenas por encima del ruido.
Lo que se sostiene y lo que no
El benchmark es valioso precisamente porque escapa al formato de pares de preguntas y respuestas: el éxito requiere comprender las relaciones de las linkbases, no solo emparejar una pregunta con un fragmento de texto. Basar la construcción de instancias en violaciones del DQC lo hace reproducible y lo vincula directamente con el proceso de auditoría real.
Dicho esto, tengo mis reservas. Los resultados de FinRE son desconcertantes: que GPT-4o obtenga un 91.82% mientras que los modelos con capacidad de dominio colapsan al 0.00% es una varianza que casi con seguridad refleja la sensibilidad al prompt y el desajuste del formato de salida más que la capacidad de razonamiento genuina. El artículo prueba todos los modelos en zero-shot sin analizar el formato del prompt ni proporcionar líneas base de few-shot, lo que hace imposible atribuir las puntuaciones del 0.00% a la inteligencia en lugar de a fallos de procesamiento. El marco de trabajo de "LLM como juez" utilizado para FinMR introduce otra capa de ruido en la evaluación.
La afirmación principal —"caídas de precisión del 60 al 90% sobre estructuras jerárquicas de múltiples documentos"— también necesita un punto de referencia más claro. No es obvio si esto se compara con el desempeño humano, versiones de un solo documento de las mismas tareas o variantes simplificadas (no jerárquicas). La dirección es correcta, pero sin esa línea base la magnitud es difícil de interpretar.
Por qué esto importa para la IA financiera
Los archivos de Beancount no son XBRL, pero comparten las propiedades estructurales clave: un espacio de nombres de cuentas jerárquico análogo al esquema de taxonomía, restricciones de partida doble que deben cuadrar de forma análoga a las linkbases de cálculo, y entradas con tipo que referencian categorías canónicas de forma análoga al emparejamiento de concepto a instancia. El modo de fallo de FinMR —modelos que cometen errores aritméticos en reglas de cálculo de varios pasos— es exactamente lo que importa para la verificación del saldo de Beancount. Si GPT-4o no puede verificar de manera confiable que los árboles de suma US-GAAP cuadran correctamente en una presentación XBRL, es casi seguro que no se puede confiar en él para verificar jerarquías de cuentas complejas en un libro de contabilidad sin delegar la aritmética a una herramienta externa (al estilo PAL).
Las cifras de FinSM son una advertencia directa para cualquier agente de Beancount que asocie nombres de cuentas escritos por el usuario o descripciones de transacciones con un plan de cuentas canónico. Incluso el mejor modelo recupera el concepto correcto menos del 13% de las veces en el rango 20. La recuperación basada en clasificación no está ni de lejos lista para producción sin un recuperador especializado o un ajuste fino en la taxonomía de destino.
El no-resultado para los modelos especializados en el dominio es instructivo: la escala bruta y el diseño de prompts estructurados siguen determinando los resultados más que el preentrenamiento financiero para esta clase de tareas de razonamiento estructurado.
Qué leer a continuación
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130): la estructura jerárquica de la linkbase XBRL es exactamente el tipo de grafo sobre documentos al que se dirige el GraphRAG de Microsoft; vale la pena leerlo como una respuesta arquitectónica a los fallos de recuperación de FinAuditing.
- FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650): de autores coincidentes, se centra en mapear hechos financieros con conceptos de taxonomía (la tarea anterior a la auditoría); complementa el alcance de FinAuditing.
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012): si los modelos no pueden verificar cálculos de manera confiable en zero-shot, la respuesta puede ser herramientas de verificación formal estratificadas sobre las acciones del agente en lugar de mejores prompts.
