Aller au contenu principal
Financial Reporting

Tout sur Financial Reporting

12 articles
Generating and auditing financial reports with language models

FinRAGBench-V : RAG multimodal avec citations visuelles dans le domaine financier

FinRAGBench-V (EMNLP 2025) est le premier benchmark à grande échelle pour le RAG multimodal avec citations visuelles en finance, couvrant plus de 112 000 pages de documents et 1 394 paires de questions-réponses annotées par des humains. Les meilleurs modèles n'atteignent qu'un rappel de citation au niveau du bloc de 20 à 61 %, et la recherche multimodale surpasse la recherche textuelle de près de 50 points de pourcentage.

Fin-RATE : Comment les LLM échouent dans l'analyse financière multi-périodes et multi-entités

Fin-RATE évalue 17 LLM sur 7 500 paires de questions-réponses curatées par des experts issues de 2 472 dépôts SEC, révélant un effondrement de la précision de 18,60 % sous suivi longitudinal et une chute de 54 points pour Fin-R1, spécialisé en finance, sur les tâches multi-entités — le pipeline de récupération, et non le modèle de base, constituant le goulot d'étranglement contraignant.

FinDER : Les requêtes réelles des analystes révèlent un écart de rappel de 74 % dans le RAG financier

FinDER évalue le RAG sur 5 703 requêtes réelles d'analystes de fonds spéculatifs par rapport aux dépôts 10-K du S&P 500 ; E5-Mistral n'atteint que 25,95 % de rappel de contexte, et les requêtes riches en abréviations coûtent 8,2 points de précision — la preuve que la normalisation des requêtes, et non de meilleurs embeddings, est la première correction à apporter aux pipelines d'IA financière.

DocFinQA : Raisonnement financier à contexte long sur l'intégralité des dépôts SEC

DocFinQA remplace les passages sélectionnés de 700 mots de FinQA par l'intégralité des dépôts SEC de 123 000 mots, exposant une augmentation de contexte de 175× qui réduit de près de moitié la précision de GPT-4 sur les documents longs. Les pipelines de récupération ne parviennent pas à extraire le bon segment 45 % du temps à HR@3 — et les modèles à contexte long ne sont pas un substitut.

FinAuditing : les LLM obtiennent un score inférieur à 14 % sur des tâches réelles d'audit XBRL de la SEC

FinAuditing teste 13 LLM en zero-shot sur 1 102 instances réelles de dépôts XBRL de la SEC ; les meilleurs scores sont de 13,86 % sur la vérification mathématique financière et de 12,42 % sur l'extraction de concepts — des résultats qui limitent directement ce que les outils de comptabilité par IA peuvent automatiser en toute confiance sans outils externes.

MultiHiertt : Évaluation du raisonnement numérique sur des tableaux financiers multi-hiérarchiques

MultiHiertt (ACL 2022) présente 10 440 paires de questions-réponses issues de rapports financiers réels comprenant en moyenne 3,89 tableaux hiérarchiques chacun ; les modèles de pointe obtiennent un score F1 de 38 % contre 87 % pour les humains, avec une pénalité de 15 points pour les questions multi-tableaux — quantifiant l'écart de récupération que l'IA financière doit combler.

ConvFinQA : QA financière multi-tours et l'écart de 21 points entre modèles et experts humains

ConvFinQA (EMNLP 2022) étend FinQA à la conversation multi-tours sur les rapports de résultats du S&P 500, révélant que le meilleur modèle affiné atteint une précision d'exécution de 68,9 % contre 89,4 % pour les experts humains — et tombe à 52,4 % lors de conversations hybrides multi-aspects où les modèles doivent transporter le contexte numérique à travers différents sujets financiers.

TAT-QA : Un benchmark de QA hybride tableau-texte pour le raisonnement sur les rapports annuels financiers

TAT-QA est un benchmark de 16 552 questions sur des contextes de rapports financiers hybrides (tableaux et textes) ayant démontré que l'ancrage des preuves — et non l'arithmétique — est le principal goulot d'étranglement de l'IA en finance ; en 2024, des LLM 7B affinés ont atteint 83 % de F1, comblant l'essentiel de l'écart face au plafond humain de 91 %.

FinQA : Le benchmark mesurant le raisonnement numérique de l'IA sur les rapports financiers

FinQA (EMNLP 2021) a construit 8 281 paires de questions-réponses à partir de rapports de résultats du S&P 500 nécessitant des programmes arithmétiques multi-étapes. Les modèles neuronaux ont obtenu un score de 61 % à leur sortie contre 91 % pour les experts humains ; la précision s'effondre à 22 % sur les programmes de trois étapes ou plus. Les modes d'échec — constantes de domaine, ancrage multi-modal, longueur de chaîne — correspondent directement aux défis auxquels les agents Beancount sont confrontés aujourd'hui.