Aller au contenu principal

FinAuditing : les LLM obtiennent un score inférieur à 14 % sur des tâches réelles d'audit XBRL de la SEC

· 6 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

FinAuditing évalue les LLM par rapport à la complexité structurelle des dépôts XBRL réels de la SEC — et non par rapport aux paires de questions-réponses polies qui dominent les classements de NLP financier. Je le lis actuellement car le programme d'audit de Bean Labs revient sans cesse sur une question à laquelle les benchmarks existants ne peuvent répondre : un modèle peut-il conserver l'intégralité d'un dépôt structuré en mémoire et vérifier sa cohérence interne ?

L'article

2026-06-03-finauditing-xbrl-taxonomy-benchmark-llm

Wang et al. présentent FinAuditing, un benchmark de 1 102 instances tirées de 218 dépôts XBRL sur SEC EDGAR, couvrant les types d'erreurs répertoriés par le XBRL US Data Quality Committee (DQC). Le format XBRL est le format lisible par machine exigé par la SEC pour tous les dépôts des sociétés publiques ; chaque dépôt regroupe un document d'instance (chiffres déclarés), un schéma de taxonomie (concepts comptables valides) et quatre bases de liens (linkbases) — calcul, présentation, définition et libellé — qui spécifient les relations entre les concepts. Le benchmark opérationnalise trois sous-tâches d'audit : l'appariement sémantique financier (FinSM, extraire le concept de taxonomie correct pour un fait déclaré), l'extraction de relations financières (FinRE, classifier la relation entre deux nœuds de la taxonomie) et le raisonnement mathématique financier (FinMR, vérifier que les chiffres déclarés respectent les règles de calcul définies par la taxonomie). Les instances comportent en moyenne 33 848 tokens — ce qui dépasse la limite de contexte effective de nombreux modèles open-source — et les 13 modèles sont testés en mode zero-shot.

Idées clés

  • Le FinSM est essentiellement de la recherche de taxonomie : étant donné un fait dans le dépôt, il faut trouver le bon concept US-GAAP. DeepSeek-V3 arrive en tête avec un Hit Rate@20 de 12,42 % — soit moins d'une supposition correcte sur huit en choisissant parmi 20 candidats. GPT-4o atteint 9,09 %.
  • Le FinRE (classification des relations de base de liens) est la tâche la plus facile : GPT-4o atteint une précision de 91,82 % et un Macro F1 de 90,09. Mais Qwen3-32B et Fino1-14B — tous deux commercialisés comme étant capables de gérer la finance — obtiennent un score de 0,00 %, s'effondrant apparemment sur le type de relation CombinationErr.
  • Le FinMR est brutal : Fino1-14B mène avec une précision de 13,86 % ; la plupart des modèles stagnent à un chiffre. L'analyse des erreurs attribue 70 à 83 % des échecs à des erreurs d'arithmétique dans des règles de calcul en plusieurs étapes, les erreurs de formatage structurel représentant 9 à 71 % selon le modèle.
  • Les données sources sont 4 545 messages d'erreur DQC provenant de dépôts réels (2020-2024) — et non des exemples contradictoires synthétiques. Le benchmark sélectionne les 9 types d'erreurs les plus fréquents, couvrant 60,33 % des violations réelles du DQC.
  • Les modèles spécialisés dans le domaine (Fino1-14B, FinR1) ne battent pas systématiquement les grands modèles polyvalents ; Fino1-14B ne mène que sur le FinMR, et même là, ses 13,86 % sont à peine au-dessus du bruit.

Ce qui tient la route — et ce qui ne la tient pas

Le benchmark est précieux précisément parce qu'il échappe au format des paires de questions-réponses : le succès nécessite de comprendre les relations entre les bases de liens, et non de simplement faire correspondre une question à un segment de texte. Fonder la construction des instances sur les violations du DQC rend le processus reproductible et directement lié au processus d'audit réel.

Cela dit, j'ai des réserves. Les résultats du FinRE sont déroutants : GPT-4o à 91,82 % alors que les modèles spécialisés s'effondrent à 0,00 % est une variance qui reflète presque certainement une sensibilité au prompt et une inadéquation du format de sortie plutôt qu'une réelle capacité de raisonnement. L'article teste tous les modèles en zero-shot sans faire d'ablation sur le format du prompt ni fournir de bases de référence few-shot, ce qui rend impossible l'attribution des scores de 0,00 % à l'intelligence plutôt qu'à des échecs d'analyse syntaxique. Le cadre "LLM-as-judge" utilisé pour le FinMR introduit une autre couche de bruit dans l'évaluation.

L'affirmation principale — « des baisses de précision de 60 à 90 % sur les structures hiérarchiques multi-documents » — nécessite également un point d'ancrage plus clair. On ne sait pas si cela compare les performances humaines, des versions mono-document des mêmes tâches ou des variantes aplaties (non hiérarchiques). La direction est correcte, mais sans cette base de référence, l'ampleur est difficile à interpréter.

Pourquoi cela est important pour l'IA financière

Les fichiers Beancount ne sont pas des XBRL, mais ils partagent des propriétés structurelles clés : un espace de noms de comptes hiérarchique analogue au schéma de taxonomie, des contraintes de partie double qui doivent s'équilibrer comme les bases de liens de calcul, et des entrées typées qui font référence à des catégories canoniques comme l'appariement concept-instance. Le mode d'échec du FinMR — les modèles faisant des erreurs d'arithmétique sur des règles de calcul en plusieurs étapes — est exactement ce qui importe pour la vérification du solde Beancount. Si GPT-4o ne peut pas vérifier de manière fiable que les arbres d'addition US-GAAP s'additionnent correctement dans un dépôt XBRL, on ne peut certainement pas lui faire confiance pour vérifier des hiérarchies de comptes complexes dans un grand livre sans déléguer l'arithmétique à un outil externe (type PAL).

Les chiffres du FinSM sont un avertissement direct pour tout agent Beancount qui mappe des noms de comptes ou des descriptions de transactions saisis par l'utilisateur à un plan comptable canonique. Même le meilleur modèle ne récupère le bon concept que dans moins de 13 % des cas au rang 20. La recherche basée sur le classement est loin d'être prête pour la production sans un moteur de recherche spécialisé ou un réglage fin sur la taxonomie cible.

Le non-résultat pour les modèles spécialisés est instructif : l'échelle brute et le prompt structuré déterminent toujours les résultats plus que le pré-entraînement financier pour cette classe de tâches de raisonnement structuré.

Lectures complémentaires

  • From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130) — la structure hiérarchique de la base de liens XBRL est exactement le genre de graphe sur documents que le GraphRAG de Microsoft cible ; utile à lire comme réponse architecturale aux échecs de recherche de FinAuditing.
  • FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650) — provenant d'auteurs communs, se concentre sur la mise en correspondance des faits financiers avec les concepts de taxonomie (la tâche en amont avant l'audit) ; complète la portée de FinAuditing.
  • Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012) — si les modèles ne peuvent pas vérifier les calculs de manière fiable en zero-shot, la réponse réside peut-être dans des outils de vérification formelle superposés aux actions des agents plutôt que dans de meilleurs prompts.