DocFinQA: Financieel redeneren met lange context op volledige SEC-documenten
DocFinQA is een ACL-artikel uit 2024 dat de bestaande FinQA-dataset neemt en elke vraag opnieuw presenteert naast het volledige SEC-document waar deze vandaan kwam — waardoor de gemiddelde context wordt uitgebreid van minder dan 700 woorden naar 123.000 woorden. Ik lees het omdat het direct het scenario test waarmee elke productie-Beancount-agent te maken krijgt: geen netjes geëxtraheerde passage, maar het hele rommelige document. De resultaten zijn ontnuchterend voor iedereen die van plan is modellen met een lange context in te zetten over grootboeken van meerdere jaren.
Het artikel
DocFinQA: A Long-Context Financial Reasoning Dataset — Varshini Reddy, Rik Koncel-Kedziorski, Viet Dac Lai, Michael Krumdick, Charles Lovering, en Chris Tanner (ACL 2024, Short Papers) — neemt de 8.281 QA-paren van FinQA en breidt 7.621 daarvan uit met het volledige jaarlijkse SEC-rapport waar elke vraag oorspronkelijk vandaan kwam. Het resultaat is 1.236 unieke documenten verdeeld over 5.798 trainings-, 791 dev- en 1.032 testvoorbeelden, waarbij de gemiddelde context met een factor 175 explodeert van ongeveer 700 woorden naar 123.453 woorden.
De vragenset is ongewijzigd — dit zijn dezelfde numerieke redeneervragen in meerdere stappen die Python-programma's vereisen om te worden beantwoord. Wat verandert, is dat het model nu het volledige document ontvangt in plaats van een vakkundig gecureerde passage van 700 woorden. Het onderzoek vergelijkt twee benaderingen: klassieke retrieval-pipelines (fragmenteren, rangschikken, beantwoorden) en opkomende LLM's met lange context die proberen het volledige document end-to-end te verwerken.
Belangrijkste ideeën
- Beste nauwkeurigheid van de retrieval-pipeline op de testset: GPT-3.5 op 42,64%. Open-source modellen blijven ver achter: Mistral/7B op 24,97%, CodeLlama/13B op 21,01%, MPT/30B op 18,07%.
- De beste retrieval-encoder — een fijn afgestelde ColBERT — behaalt HR@1 = 0,35 en HR@3 = 0,55, wat betekent dat het juiste fragment in bijna de helft van de gevallen ontbreekt in de context van het model, zelfs bij het ophalen van drie passages.
- GPT-4 met lange context (geëvalueerd op een subset van 400 vragen): 46,5% op kortere documenten (≤100K tokens) versus 23,0% met een 'Samenvatten-dan-Antwoorden'-strategie op de langste documenten (>100K tokens). GPT-4 maakt bijna twee keer zoveel fouten op lange documenten als op korte.
- Financiële PDF-parsing (Kensho Extract) presteerde aanzienlijk beter dan generieke HTML-parsing (BeautifulSoup), vooral voor het behoud van tabellen — een praktische bevinding voor elke pipeline die op SEC-documenten is gebouwd.
- Een aanzienlijk deel van de relevante fragmenten bevindt zich voorbij positie 250 in het document, wat betekent dat strategieën op basis van afkappen (truncation) stilletjes het juiste bewijs weggooien voordat het model het ooit ziet.
Wat standhoudt — en wat niet
De kern van de empirische bijdrage is solide: de dataset is een getrouwe uitbreiding van FinQA met een goed gedefinieerde methodologie (four-gram similarity scoring om gouden fragmenten te identificeren, fragmenten van 2.750 tekens met 20% overlap), en de bevinding dat prestaties ernstig verslechteren bij documentlengte is consistent over zowel retrieval- als lange-contextbenaderingen. De bijna-verdubbeling van GPT-4-fouten op lange documenten ten opzichte van korte is opvallend en moeilijk weg te redeneren.
Wat het artikel niet volledig behandelt, is de grens van de lange-contextmodellen van jaargang 2024. De evaluatie van lange context beslaat slechts 400 steekproeven, beperkt door kosten, en test Gemini 1.5 Pro (contextvenster van 1M tokens) of Claude 3 (200K) niet. De fragmentatie-hyperparameters zijn redelijk maar niet systematisch geablateerd, en de 'Samenvatten-dan-Antwoorden' multi-call strategie is waarschijnlijk niet de best beschikbare — IRCoT's vervlochten retrieval en StructRAG's gestructureerde synthese suggereren beide dat er betere benaderingen bestaan voor multi-hop bewijsaggregatie in lange documenten.
Het feit dat de fijn afgestelde ColBERT HR@3 = 0,55 behaalt, onthult het diepere probleem: retrieval over lange financiële documenten is op zichzelf onopgelost. Zelfs met een perfect generatief model zou bijna de helft van de zoekopdrachten een antwoord krijgen dat is opgebouwd uit de verkeerde passages. Het artikel brengt dit naar voren als de beperkende factor, maar stopt net voor het kwantificeren van hoeveel de nauwkeurigheid herstelt wanneer retrieval perfect (oracle) wordt gemaakt.
Waarom dit belangrijk is voor financiële AI
Beancount-grootboeken over meerdere jaren bevatten gemiddeld geen 123.000 woorden, maar een decennium aan transacties met gedetailleerde memo's bereikt dat gemakkelijk, en een financiële agent die over volledige jaarverslagen opereert, krijgt precies met dit regime te maken. De compressie van "we hebben de juiste 700 woorden uitgezocht" (FinQA) naar "hier is het volledige 10-Q rapport" (DocFinQA) vertegenwoordigt de kloof tussen een speelgoed-benchmark en de realiteit van productie. DocFinQA maakt die kloof meetbaar.
De daling van bijna 50% in de nauwkeurigheid van GPT-4 van korte naar lange documenten pleit tegen een simpel "gebruik gewoon een groter contextvenster" als antwoord. Retrieval blijft noodzakelijk, maar is slechts 55% betrouwbaar bij HR@3. Voor een Beancount write-back agent die een afschrijvingsschema moet vinden dat begraven ligt in een jaar oude toelichting op de jaarrekening, biedt geen van beide architecturen de betrouwbaarheid die je zou willen voordat je een journaalpost vastlegt. De eerlijke lezing van dit artikel: betere retrieval, betere bewijsaggregatie en expliciete evaluatie van stille fouten — niet een groter contextvenster — is wat het veld daadwerkelijk nodig heeft.
Wat nu te lezen
- "Lost in the Middle: How Language Models Use Long Contexts" — Liu et al., 2023, arXiv:2307.03172. Biedt de mechanistische verklaring voor de ineenstorting van de positionele nauwkeurigheid die DocFinQA meet, met de inmiddels canonieke U-vormige prestatiecurve.
- "FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation" — arXiv:2504.15800, ICLR 2025 Workshop. Een opvolger-benchmark uit 2025 met 5.703 query-bewijs-antwoord-tripletten ontworpen rond realistische professionele financiële zoekopdrachten, inclusief afkortingen en acroniemen die standaard retrievers missen.
- "Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings" — arXiv:2602.07294. Een nieuwere SEC-document-benchmark die temporele tracking-taken toevoegt buiten de vraag-beantwoording van een enkel document, wat dichter ligt bij wat een Beancount-audit-agent daadwerkelijk nodig zou hebben.
