Salta al contingut principal

FinAuditing: els LLM puntuen per sota del 14% en tasques reals d'auditoria SEC XBRL

· 6 minuts de lectura
Mike Thrift
Mike Thrift
Marketing Manager

FinAuditing avalua els LLM respecte a la complexitat estructurada de les presentacions SEC XBRL reals, i no pas les parelles de preguntes i respostes polides que dominen les classificacions de processament de llenguatge natural (NLP) financer. Ho estic llegint ara perquè l'agenda d'auditoria de Bean Labs torna constantment a una pregunta que els tests de referència actuals no poden respondre: pot un model mantenir una presentació estructurada sencera en memòria i verificar-ne la coherència interna?

L'article

2026-06-03-finauditing-xbrl-taxonomy-benchmark-llm

Wang et al. presenten FinAuditing, un benchmark d'1.102 instàncies extretes de 218 presentacions XBRL a l'SEC EDGAR, que cobreixen tipus d'errors catalogats pel Comitè de Qualitat de Dades (DQC) de XBRL US. XBRL és el format llegible per màquina que la SEC requereix per a totes les presentacions d'empreses públiques; cada presentació agrupa un document d'instància (xifres reportades), un esquema de taxonomia (conceptes comptables vàlids) i quatre bases d'enllaços (linkbases) —càlcul, presentació, definició i etiqueta— que especifiquen com es relacionen els conceptes entre si. El benchmark operativitza tres subtasques d'auditoria: Emparellament Semàntic Financer (FinSM, recuperar el concepte de taxonomia correcte per a un fet reportat), Extracció de Relacions Financeres (FinRE, classificar la relació entre dos nodes de taxonomia) i Raonament Matemàtic Financer (FinMR, verificar que les xifres reportades compleixen les regles de càlcul definides per la taxonomia). Les instàncies tenen una mitjana de 33.848 tokens —al límit o per sobre del límit de context efectiu de molts models de codi obert— i els 13 models es proven en modalitat zero-shot.

Idees clau

  • FinSM és bàsicament recuperació de taxonomia: donat un fet en la presentació, trobar el concepte US-GAAP correcte. DeepSeek-V3 encapçala el camp amb un Hit Rate@20 del 12,42% —menys d'un de cada vuit encerts en triar entre 20 candidats. GPT-4o arriba al 9,09%.
  • FinRE (classificació de relacions de linkbase) és la tasca més senzilla: GPT-4o assoleix un 91,82% de precisió i un 90,09 de Macro F1. Però Qwen3-32B i Fino1-14B —tots dos comercialitzats com a capaços en l'àmbit financer— puntuen un 0,00%, aparentment col·lapsant en el tipus de relació CombinationErr.
  • FinMR és brutal: Fino1-14B lidera amb un 13,86% de precisió; la majoria dels models es queden en xifres d'un sol dígit. L'anàlisi d'errors atribueix el 70–83% dels fracassos a errors aritmètics en regles de càlcul de diversos passos, mentre que els errors de format estructural representen el 9–71% segons el model.
  • Les dades d'origen són 4.545 missatges d'error del DQC de presentacions reals (2020–2024)—no exemples adversaris sintètics. El benchmark selecciona els 9 tipus d'error més freqüents, que cobreixen el 60,33% de les infraccions reals del DQC.
  • Els models especialitzats en el domini (Fino1-14B, FinR1) no superen sistemàticament els models de propòsit general; Fino1-14B lidera només en FinMR, i fins i tot allà el seu 13,86% està tot just per sobre del soroll.

Què se sosté —i què no—

El benchmark és valuós precisament perquè escapa del format de parelles pregunta-resposta: l'èxit requereix entendre les relacions de les bases d'enllaços, no només fer coincidir una pregunta amb un fragment de text. Fonamentar la construcció d'instàncies en les infraccions del DQC el fa reproduïble i directament lligat al procés d'auditoria real.

Dit això, tinc reserves. Els resultats de FinRE són desconcertants: que GPT-4o estigui al 91,82% mentre que models capaços en el domini col·lapsen al 0,00% és una variància que gairebé segur reflecteix la sensibilitat al "prompt" i el desajust del format de sortida, més que no pas una capacitat de raonament genuïna. L'article prova tots els models en zero-shot sense analitzar el format del prompt ni proporcionar línies base de "few-shot", cosa que fa impossible atribuir les puntuacions del 0,00% a la intel·ligència en lloc d'errors de processament (parsing). L'entorn de "LLM-com-a-jutge" utilitzat per a FinMR introdueix una altra capa de soroll en l'avaluació.

L'afirmació principal —"caigudes de precisió del 60–90% sobre estructures multidocumentals jeràrquiques"— també necessita un punt de referència més clar. No és obvi si això es compara amb el rendiment humà, amb versions d'un sol document de les mateixes tasques o amb variants aplanades (no jeràrquiques). La direcció és correcta, però sense aquesta línia base, la magnitud és difícil d'interpretar.

Per què això és important per a la IA financera

Els fitxers de Beancount no són XBRL, però comparteixen propietats estructurals clau: un espai de noms de comptes jeràrquic anàleg a l'esquema de taxonomia, restriccions de partida doble que han de quadrar anàlogues a les linkbases de càlcul, i entrades tipificades que fan referència a categories canòniques anàlogues a l'aparellament de concepte a instància. El mode de fallada de FinMR —models que cometen errors aritmètics en regles de càlcul de diversos passos— és exactament el que importa per a la verificació del balanç de Beancount. Si GPT-4o no pot verificar amb fiabilitat que els arbres d'addició US-GAAP sumen correctament en una presentació XBRL, és gairebé segur que no se li pot confiar la verificació de jerarquies de comptes complexes en un llibre major sense delegar l'aritmètica a una eina externa (estil PAL).

Les xifres de FinSM són un advertiment directe per a qualsevol agent de Beancount que mapegi noms de comptes escrits per l'usuari o descripcions de transaccions a un pla de comptes canònic. Fins i tot el millor model recupera el concepte correcte menys del 13% de les vegades en el rang 20. La recuperació basada en rànquings no està gens a prop de ser apta per a producció sense un recuperador especialitzat o un ajust fi (fine-tuning) sobre la taxonomia objectiu.

El no-resultat per als models especialitzats en el domini és instructiu: l'escala pura i el "prompting" estructurat encara determinen els resultats més que no pas el pre-entrenament financer per a aquesta classe de tasca de raonament estructurat.

Què llegir a continuació

  • From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130) — l'estructura jeràrquica de la linkbase XBRL és exactament el tipus de graf sobre documents al qual es dirigeix el GraphRAG de Microsoft; val la pena llegir-lo com una resposta arquitectònica als fracassos de recuperació de FinAuditing.
  • FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650) — d'autors coincidents, se centra en el mapatge de fets financers a conceptes de taxonomia (la tasca prèvia a l'auditoria); complementa l'abast de FinAuditing.
  • Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012) — si els models no poden verificar càlculs amb fiabilitat en zero-shot, la resposta pot ser l'ús d'eines de verificació formal per sobre de les accions de l'agent, en lloc d'un millor prompting.