Ir al contenido principal

DocFinQA: Razonamiento financiero de contexto largo en presentaciones completas de la SEC

· 6 min de lectura
Mike Thrift
Mike Thrift
Marketing Manager

DocFinQA es un artículo de la ACL de 2024 que toma el conjunto de datos FinQA existente y vuelve a presentar cada pregunta junto con la presentación completa ante la SEC de la que proviene, ampliando el contexto promedio de menos de 700 palabras a 123.000 palabras. Lo estoy leyendo porque pone a prueba directamente el escenario al que se enfrenta cada agente de Beancount en producción: no un pasaje extraído ordenadamente, sino el documento completo y desordenado. Los resultados son aleccionadores para cualquiera que planee implementar modelos de contexto largo sobre libros mayores de varios años.

El artículo

DocFinQA: A Long-Context Financial Reasoning Dataset — Varshini Reddy, Rik Koncel-Kedziorski, Viet Dac Lai, Michael Krumdick, Charles Lovering y Chris Tanner (ACL 2024, Short Papers) — toma los 8.281 pares de preguntas y respuestas de FinQA y aumenta 7.621 de ellos con el informe anual completo de la SEC del que procedía originalmente cada pregunta. El resultado son 1.236 presentaciones únicas divididas en 5.798 ejemplos de entrenamiento, 791 de desarrollo y 1.032 de prueba, con un contexto promedio que se dispara 175 veces, pasando de aproximadamente 700 palabras a 123.453 palabras.

2026-06-20-docfinqa-long-context-financial-reasoning-dataset

El conjunto de preguntas no ha cambiado: son las mismas preguntas de razonamiento numérico de varios pasos que requieren programas de Python para ser respondidas. Lo que cambia es que el modelo ahora recibe la presentación completa en lugar de un pasaje de 700 palabras expertamente curado. La investigación compara dos familias de enfoques: los canales de recuperación clásicos (fragmentar, clasificar, responder) y los modelos LLM de contexto largo emergentes que intentan procesar el documento completo de extremo a extremo.

Ideas clave

  • La mejor precisión del canal de recuperación en el conjunto de prueba: GPT-3.5 con un 42,64%. Los modelos de código abierto se quedan muy atrás: Mistral/7B con un 24,97%, CodeLlama/13B con un 21,01%, MPT/30B con un 18,07%.
  • El mejor codificador de recuperación —un ColBERT ajustado— logra un HR@1 = 0,35 y HR@3 = 0,55, lo que significa que el fragmento correcto está ausente del contexto del modelo casi la mitad de las veces, incluso cuando se recuperan tres pasajes.
  • GPT-4 de contexto largo (evaluado en una submuestra de 400 preguntas): 46,5% en documentos cortos (≤100K tokens) frente a 23,0% con una estrategia de Resumir y luego Responder en los documentos más largos (>100K tokens). GPT-4 comete casi el doble de errores en documentos largos que en cortos.
  • El procesamiento de PDF específico para finanzas (Kensho Extract) superó sustancialmente al procesamiento HTML genérico (BeautifulSoup), particularmente en la preservación de tablas; un hallazgo práctico para cualquier canal de procesamiento basado en presentaciones ante la SEC.
  • Una fracción sustancial de los fragmentos relevantes se encuentra más allá de la posición 250 del documento, lo que significa que las estrategias basadas en el truncamiento descartan silenciosamente la evidencia correcta antes de que el modelo llegue a verla.

Qué se mantiene y qué no

La contribución empírica central es sólida: el conjunto de datos es una extensión fiel de FinQA con una metodología bien definida (puntuación de similitud de cuatro gramas para identificar fragmentos de referencia o "golden chunks", fragmentos de 2.750 caracteres con un 20% de superposición), y el hallazgo de que el rendimiento se degrada severamente con la longitud del documento es consistente tanto en los enfoques de recuperación como en los de contexto largo. La casi duplicación de los errores de GPT-4 en documentos largos frente a cortos es impactante y difícil de ignorar.

Lo que el artículo no aborda por completo es la frontera de los modelos de contexto largo de la cosecha de 2024. La evaluación de contexto largo cubre solo 400 muestras, limitada por el costo, y no prueba Gemini 1.5 Pro (ventana de 1 millón de tokens) o Claude 3 (200K). Los hiperparámetros de fragmentación son razonables pero no se han analizado sistemáticamente mediante ablación, y la estrategia de múltiples llamadas de Resumir y luego Responder probablemente no sea la mejor disponible: la recuperación entrelazada de IRCoT y la síntesis estructurada de StructRAG sugieren que existen mejores enfoques para la agregación de evidencia de múltiples saltos en documentos largos.

El hecho de que ColBERT ajustado alcance un HR@3 = 0,55 revela el problema más profundo: la recuperación en documentos financieros largos sigue siendo un problema sin resolver. Incluso con un modelo generativo perfecto, casi la mitad de las consultas recibirían una respuesta construida a partir de los pasajes equivocados. El artículo presenta esto como la restricción vinculante, pero se queda corto al no cuantificar cuánto se recupera la precisión cuando la recuperación se convierte en oráculo.

Por qué esto es importante para la IA financiera

Los libros mayores de Beancount de varios años no promedian 123.000 palabras por defecto, pero una década de transacciones con notas detalladas alcanza fácilmente esa cifra, y un agente financiero que opera sobre informes anuales completos se enfrenta exactamente a este régimen. La compresión desde "seleccionamos cuidadosamente las 700 palabras correctas" (FinQA) hasta "aquí está el informe trimestral 10-Q completo" (DocFinQA) representa la brecha entre un punto de referencia de juguete y la realidad de producción. DocFinQA hace que esa brecha sea medible.

La caída de casi el 50% en la precisión de GPT-4 de documentos cortos a largos argumenta en contra de una respuesta simple de "simplemente use una ventana de contexto más grande". La recuperación sigue siendo necesaria, pero solo es confiable en un 55% en HR@3. Para un agente de escritura de Beancount que necesita localizar un cuadro de depreciación enterrado en una nota a los estados financieros de hace un año, ninguna arquitectura ofrece la confiabilidad que se desearía antes de confirmar un asiento contable. La lectura honesta de este artículo es que lo que el campo realmente necesita es una mejor recuperación, una mejor agregación de evidencia y una evaluación explícita de los fallos silenciosos, no una ventana de contexto más grande.

Qué leer a continuación

  • "Lost in the Middle: How Language Models Use Long Contexts" — Liu et al., 2023, arXiv:2307.03172. Proporciona la explicación mecanicista para el colapso de la precisión posicional que mide DocFinQA, con la ahora canónica curva de rendimiento en forma de U.
  • FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation — arXiv:2504.15800, ICLR 2025 Workshop. Un punto de referencia sucesor de 2025 con 5.703 tripletes de consulta-evidencia-respuesta diseñados en torno a consultas de búsqueda financiera profesional realistas, incluyendo abreviaturas y acrónimos que los recuperadores estándar omiten.
  • Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings — arXiv:2602.07294. Un nuevo punto de referencia de presentaciones ante la SEC que añade tareas de seguimiento temporal más allá de la resolución de preguntas sobre un solo documento, más cercano a lo que realmente necesitaría un agente de auditoría de Beancount.