Salta al contingut principal

DocFinQA: Raonament financer de context llarg sobre presentacions completes de la SEC

· 6 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

DocFinQA és un article de l'ACL 2024 que agafa el conjunt de dades existent de FinQA i torna a presentar cada pregunta juntament amb la presentació completa de la SEC d'on prové — ampliant el context mitjà de menys de 700 paraules a 123.000 paraules. L'estic llegint perquè posa a prova directament l'escenari al qual s'enfronta cada agent de Beancount en producció: no un passatge extret i ordenat, sinó tot el document desordenat. Els resultats són alliçonadors per a qualsevol que planegi desplegar models de context llarg sobre llibres majors de diversos anys.

L'article

DocFinQA: A Long-Context Financial Reasoning Dataset — Varshini Reddy, Rik Koncel-Kedziorski, Viet Dac Lai, Michael Krumdick, Charles Lovering i Chris Tanner (ACL 2024, Short Papers) — agafa els 8.281 parells de preguntes i respostes de FinQA i n'augmenta 7.621 amb l'informe anual complet de la SEC d'on provenia originalment cada pregunta. El resultat són 1.236 presentacions úniques dividides en 5.798 exemples d'entrenament, 791 de desenvolupament i 1.032 de prova, amb un context mitjà que es multiplica per 175, passant d'unes 700 paraules a 123.453 paraules.

2026-06-20-docfinqa-long-context-financial-reasoning-dataset

El conjunt de preguntes no canvia — són les mateixes preguntes de raonament numèric de diversos passos que requereixen programes Python per respondre. El que canvia és que el model ara rep la presentació completa en lloc d'un passatge de 700 paraules seleccionat per experts. La investigació compara dues famílies d'enfocament: els fluxos de recuperació clàssics (fragmentar, classificar, respondre) i els models de llenguatge de gran context (LLM) emergents que intenten processar el document complet d'extrem a extrem.

Idees clau

  • La millor precisió del flux de recuperació en el conjunt de proves: GPT-3.5 amb un 42,64%. Els models de codi obert es queden molt enrere: Mistral/7B amb un 24,97%, CodeLlama/13B amb un 21,01%, MPT/30B amb un 18,07%.
  • El millor codificador de recuperació — un ColBERT ajustat — aconsegueix HR@1 = 0,35 i HR@3 = 0,55, el que significa que el fragment correcte és absent del context del model gairebé la meitat de les vegades, fins i tot quan es recuperen tres passatges.
  • GPT-4 de context llarg (avaluat en una submostra de 400 preguntes): 46,5% en documents més curts (≤100K tokens) enfront del 23,0% amb una estratègia de Resumir-i-Respondre en els documents més llargs (>100K tokens). GPT-4 comet gairebé el doble d'errors en documents llargs que en curts.
  • L'anàlisi de PDF específica per a finances (Kensho Extract) va superar substancialment l'anàlisi HTML genèrica (BeautifulSoup), especialment pel que fa a la preservació de taules — una troballa pràctica per a qualsevol flux de treball basat en presentacions de la SEC.
  • Una fracció substancial dels fragments rellevants es troba més enllà de la posició 250 del document, cosa que significa que les estratègies basades en el truncament descarten silenciosament l'evidència correcta abans que el model arribi a veure-la.

Què es manté — i què no

La contribució empírica principal és sòlida: el conjunt de dades és una extensió fidel de FinQA amb una metodologia ben definida (puntuació de similitud de quatre-grames per identificar fragments daurats, fragments de 2.750 caràcters amb un 20% de superposició), i la troballa que el rendiment es degrada severament amb la longitud del document és consistent tant en els enfocaments de recuperació com en els de context llarg. El fet que gairebé es dupliquin els errors de GPT-4 en documents llargs en comparació amb els curts és sorprenent i difícil d'ignorar.

El que l'article no aborda completament és la frontera dels models de context llarg de l'any 2024. L'avaluació del context llarg només cobreix 400 mostres, limitada pel cost, i no prova Gemini 1.5 Pro (finestra d'1M de tokens) o Claude 3 (200K). Els hiperparàmetres de fragmentació són raonables però no s'han analitzat sistemàticament, i l'estratègia de crides múltiples Resumir-i-Respondre probablement no és la millor disponible — la recuperació entrellaçada d'IRCoT i la síntesi estructurada de StructRAG suggereixen que existeixen millors enfocaments per a l'agregació d'evidències de diversos salts en documents llargs.

El ColBERT ajustat que arriba a HR@3 = 0,55 revela el problema més profund: la recuperació en documents financers llargs encara no s'ha resolt. Fins i tot amb un model generatiu perfecte, gairebé la meitat de les consultes rebríen una resposta construïda a partir de passatges incorrectes. L'article presenta això com la limitació principal, però no arriba a quantificar quant es recuperaria la precisió si la recuperació fos ideal (oracle).

Per què això és important per a la IA financera

Els llibres majors de Beancount de diversos anys no solen tenir una mitjana de 123.000 paraules, però una dècada de transaccions amb comentaris detallats hi arriba fàcilment, i un agent financer que treballi amb informes anuals complets s'enfronta exactament a aquest règim. La compressió des de "hem triat a mà les 700 paraules correctes" (FinQA) a "aquí teniu el 10-Q complet" (DocFinQA) representa la bretxa entre un banc de proves de joguina i la realitat de producció. DocFinQA fa que aquesta bretxa sigui mesurable.

La caiguda de gairebé el 50% en la precisió de GPT-4 de documents curts a llargs argumenta en contra d'una resposta simple de "només cal fer servir una finestra de context més gran". La recuperació continua sent necessària, però només és fiable en un 55% a HR@3. Per a un agent d'escriptura de Beancount que necessiti localitzar una taula d'amortització enterrada en una nota als comptes d'un any d'antiguitat, cap arquitectura ofereix la fiabilitat que voldries abans de confirmar una entrada al diari. La lectura honesta d'aquest article: millor recuperació, millor agregació d'evidències i avaluació explícita de les fallades silencioses — no una finestra de context més gran — és el que realment necessita el sector.

Què llegir a continuació

  • "Lost in the Middle: How Language Models Use Long Contexts" — Liu et al., 2023, arXiv:2307.03172. Proporciona l'explicació mecànica de l'enfonsament de la precisió posicional que mesura DocFinQA, amb la ja canònica corba de rendiment en forma de U.
  • FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation — arXiv:2504.15800, ICLR 2025 Workshop. Un banc de proves successor de 2025 amb 5.703 triplets de consulta-evidència-resposta dissenyats al voltant de consultes de cerca financera professional realistes, incloent abreviatures i acrònims que els recuperadors estàndard passen per alt.
  • Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings — arXiv:2602.07294. Un banc de proves de presentacions de la SEC més nou que afegeix tasques de seguiment temporal més enllà de la QA d'un sol document, més proper al que realment necessitaria un agent d'auditoria de Beancount.