FinAuditing: LLM's scoren onder de 14% op echte SEC XBRL-audittaken
FinAuditing benchmarkt LLM's tegen de gestructureerde complexiteit van echte SEC XBRL-indieningen—niet de gepolijste QA-paren die de financiële NLP-leaderboards domineren. Ik lees het nu omdat de audit-agenda van Bean Labs steeds terugkomt op een vraag die bestaande benchmarks niet kunnen beantwoorden: kan een model een volledige gestructureerde indiening in het geheugen houden en de interne consistentie ervan verifiëren?
Het paper
Wang et al. introduceren FinAuditing, een benchmark van 1.102 instanties afkomstig uit 218 XBRL-indieningen op SEC EDGAR, die fouttypen dekken gecatalogiseerd door het XBRL US Data Quality Committee (DQC). XBRL is het machineleesbare formaat dat de SEC vereist voor alle indieningen van beursgenoteerde bedrijven; elke indiening bundelt een instantiedocument (gerapporteerde cijfers), een taxonomieschema (valide boekhoudconcepten) en vier linkbases—berekening, presentatie, definitie en label—die specificeren hoe concepten zich tot elkaar verhouden. De benchmark operationaliseert drie audit-subtaken: Financial Semantic Matching (FinSM, het ophalen van het juiste taxonomieconcept voor een gerapporteerd feit), Financial Relationship Extraction (FinRE, het classificeren van de relatie tussen twee taxonomienodes), and Financial Mathematical Reasoning (FinMR, het verifiëren of gerapporteerde cijfers voldoen aan de door de taxonomie gedefinieerde berekeningsregels). Instanties bevatten gemiddeld 33.848 tokens—op of voorbij de effectieve contextlimiet van veel open-source modellen—en alle 13 modellen zijn zero-shot getest.
Belangrijke ideeën
- FinSM is in essentie taxonomie-retrieval: vind bij een feit in de indiening het juiste US-GAAP-concept. DeepSeek-V3 voert het veld aan met een Hit Rate@20 van 12,42%—minder dan één op de acht gokken correct bij het kiezen uit 20 kandidaten. GPT-4o haalt 9,09%.
- FinRE (het classificeren van linkbase-relaties) is de makkelijkste taak: GPT-4o bereikt een nauwkeurigheid van 91,82% en een Macro F1 van 90,09. Maar Qwen3-32B en Fino1-14B—beide in de markt gezet als financieel vaardig—scoren 0,00%, blijkbaar bezwijkend onder het relatietype CombinationErr.
- FinMR is loodzwaar: Fino1-14B leidt met 13,86% nauwkeurigheid; de meeste modellen blijven steken in de enkele cijfers. Foutenanalyse schrijft 70–83% van de mislukkingen toe aan rekenfouten in meerstaps berekeningsregels, waarbij structurele opmaakfouten verantwoordelijk zijn voor 9–71%, afhankelijk van het model.
- De brongegevens zijn 4.545 DQC-foutmeldingen uit echte indieningen (2020–2024)—geen synthetische tegenvoorbeelden. De benchmark selecteert de 9 meest voorkomende fouttypen, die 60,33% van de real-world DQC-overtredingen dekken.
- Domeinspecifieke modellen (Fino1-14B, FinR1) verslaan niet systematisch de algemene grote modellen; Fino1-14B leidt alleen op FinMR, en zelfs daar is de 13,86% nauwelijks boven de ruis uit.
Wat standhoudt—en wat niet
De benchmark is waardevol juist omdat deze ontsnapt aan het QA-paar-formaat: succes vereist begrip van linkbase-relaties, niet alleen het matchen van een vraag aan een tekstfragment. Het baseren van de constructie van instanties op DQC-overtredingen maakt het reproduceerbaar en direct gekoppeld aan het echte auditproces.
Dat gezegd hebbende, heb ik mijn bedenkingen. De FinRE-resultaten zijn raadselachtig: GPT-4o op 91,82% terwijl domein-vaardige modellen instorten naar 0,00% is een variantie die vrijwel zeker een gevolg is van gevoeligheid voor de prompt en discrepanties in het uitvoerformaat, in plaats van echt redeneervermogen. Het paper test alle modellen zero-shot zonder te variëren in prompt-formaat of few-shot baselines te bieden, waardoor het onmogelijk is om de 0,00% scores toe te schrijven aan intelligentie in plaats van parsing-fouten. Het LLM-as-judge raamwerk dat voor FinMR wordt gebruikt, introduceert een extra laag evaluatieruis.
De hoofdbewering—"nauwkeurigheidsdalingen van 60–90% over hiërarchische multi-document structuren"—heeft ook een duidelijker anker nodig. Het is niet duidelijk of dit wordt vergeleken met menselijke prestaties, single-document versies van dezelfde taken, of platgeslagen (niet-hiërarchische) varianten. De richting is juist, maar zonder die baseline is de omvang lastig te interpreteren.
Waarom dit belangrijk is voor financiële AI
Beancount-bestanden zijn geen XBRL, maar ze delen belangrijke structurele eigenschappen: een hiërarchische account-namespace analoog aan het taxonomieschema, beperkingen van dubbel boekhouden die in balans moeten zijn analoog aan berekenings-linkbases, en getypeerde boekingen die verwijzen naar canonieke categorieën analoog aan de concept-naar-instantie matching. De FinMR-foutmodus—modellen die rekenfouten maken over meerstaps berekeningsregels—is precies wat belangrijk is voor de balansverificatie in Beancount. Als GPT-4o niet betrouwbaar kan verifiëren of US-GAAP-optelbomen correct optellen in een XBRL-indiening, kan het vrijwel zeker niet worden vertrouwd om complexe account-hiërarchieën in een grootboek te verifiëren zonder het rekenwerk uit te besteden aan een extern hulpmiddel (zoals PAL).
De FinSM-cijfers zijn een directe waarschuwing voor elke Beancount-agent die door de gebruiker getypte accountnamen of transactiebeschrijvingen koppelt aan een canoniek rekeningschema. Zelfs het beste model vindt het juiste concept minder dan 13% van de tijd bij de beste 20 resultaten. Op rangschikking gebaseerde retrieval is nog lang niet klaar voor productie zonder een gespecialiseerde retriever of fine-tuning op de doel-taxonomie.
Het ontbreken van resultaten voor domeinspecifieke modellen is leerzaam: pure schaal en gestructureerde prompting bepalen nog steeds meer de resultaten dan financiële pre-training voor dit type gestructureerde redeneertaken.
Wat nu te lezen
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130) — de hiërarchische XBRL linkbase-structuur is precies het soort graph-over-documents waar Microsofts GraphRAG zich op richt; de moeite waard als architecturaal antwoord op de retrieval-fouten in FinAuditing.
- FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650) — van deels dezelfde auteurs, richt zich op het mappen van financiële feiten naar taxonomieconcepten (de taak voorafgaand aan de audit); vult de scope van FinAuditing aan.
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012) — als modellen berekeningen niet betrouwbaar zero-shot kunnen verifiëren, ligt de oplossing mogelijk in formele verificatietools bovenop acties van agents in plaats van betere prompting.
