Aller au contenu principal

FinRAGBench-V : RAG multimodal avec citations visuelles dans le domaine financier

· 6 minutes de lecture
Mike Thrift
Mike Thrift
Marketing Manager

L'IA financière a été dominée par le RAG textuel seul, mais les documents financiers réels regorgent de graphiques, de tableaux et de figures que l'OCR ne peut pas entièrement capturer. FinRAGBench-V (EMNLP 2025) est le premier benchmark à grande échelle pour évaluer le RAG multimodal avec des citations visuelles dans le domaine financier, et ses résultats rappellent froidement le chemin qu'il reste à parcourir pour les systèmes de production.

L'article

2026-07-12-finragbench-v-multimodal-rag-visual-citation-financial-domain

Zhao, Jin, Li et Gao de l'Université de Pékin présentent FinRAGBench-V, un benchmark bilingue construit à partir de documents financiers réels : rapports de recherche, états financiers, prospectus, articles académiques, magazines et articles de presse. Le corpus de recherche est substantiel — 60 780 pages en chinois et 51 219 pages en anglais à travers environ 1 100 documents par langue — associé à 1 394 paires de questions-réponses annotées par des humains couvrant sept catégories de questions : inférence textuelle, extraction de graphiques et de tableaux, calcul numérique, requêtes sensibles au facteur temps et raisonnement multi-pages. Au-delà du jeu de données, la contribution centrale de l'article est RGenCite, un système de base qui génère des réponses accompagnées de citations visuelles au niveau du pixel sous forme de coordonnées de cadres de délimitation (bounding boxes) marquant les régions spécifiques du document qui soutiennent chaque affirmation.

Idées clés

  • La recherche multimodale domine le texte seul par une marge écrasante : ColQwen2, un extracteur vision-langage construit sur des plongements (embeddings) d'images de pages, atteint un Recall@10 de 90,13 % (chinois) et 85,86 % (anglais). Les meilleurs extracteurs textuels, BM25 et BGE-M3, plafonnent autour de 42,71 %. Cet écart n'est pas une simple erreur d'arrondi.
  • La précision de la génération est faible même pour les modèles de pointe : GPT-4o sur l'anglais atteint 43,41 % de précision (ROUGE 24,66) ; o4-mini sur le chinois atteint 58,13 % (ROUGE 38,55). Il s'agit de modèles propriétaires de premier plan dotés d'une recherche solide.
  • La citation au niveau de la page fonctionne ; celle au niveau du bloc non : Le rappel au niveau de la page se situe entre 75 et 93 % pour les meilleurs modèles. Le rappel au niveau du bloc — savoir quelle cellule de tableau ou région de graphique spécifique justifie une affirmation — chute entre 20 et 61 %. C'est l'écart clé pour l'auditabilité.
  • Le raisonnement numérique et l'inférence multi-pages font échouer les modèles en premier : Les questions nécessitant des calculs sur plusieurs pages ou des périodes temporelles sont celles où la précision chute le plus brutalement dans tous les systèmes testés.
  • Les modèles propriétaires surpassent considérablement les alternatives open-source : L'écart entre les API fermées et l'open-source est plus important ici que sur la plupart des benchmarks NLP, ce qui suggère que le raisonnement financier visuel reste un défi non résolu pour les modèles ouverts.
  • L'auto-évaluation pour les citations est imparfaite : L'évaluateur de citations par recadrage d'image atteint un r de Pearson = 0,68 avec les jugements humains — raisonnable mais pas assez fiable pour s'y fier sans échantillonnage.

Ce qui tient la route — et ce qui ne tient pas

Le résultat sur la recherche est la conclusion la plus crédible de l'article. Un écart de près de 50 points de pourcentage entre les extracteurs multimodaux et textuels sur plus de 60 000 pages est trop important pour être ignoré. Lorsque vous passez un document financier à l'OCR avant l'indexation, vous détruisez les signaux de mise en page structurelle — dans quelle colonne apparaît un chiffre, si une légende de figure modifie l'interprétation d'un tableau — qui s'avèrent d'une importance cruciale pour la recherche.

Les chiffres de génération sont honnêtes mais difficiles à interpréter isolément. Les auteurs n'analysent pas quelle part de l'écart de précision est attribuable aux erreurs de recherche par rapport aux échecs de génération. Étant donné que le Recall@10 est déjà de 85,86 % pour l'anglais, une fraction significative des échecs doit se situer du côté de la génération plutôt que de la recherche. Connaître cette répartition permettrait de clarifier si le goulot d'étranglement est le raisonnement multimodal ou quelque chose de plus fondamental sur la façon dont les MLLM traitent le langage financier.

L'ensemble d'évaluation de 1 394 paires de questions-réponses est restreint par rapport à la portée du benchmark. Divisées en sept catégories et deux langues, certaines tranches comptent bien moins de 200 exemples. La signification statistique des conclusions au niveau des catégories est laissée implicite. Ce n'est pas inhabituel pour un article de benchmark, mais cela signifie que des comparaisons orientées seraient faciles à construire.

Le protocole d'évaluation des citations est une contribution intéressante, mais un r de Pearson de 0,68 avec les évaluations humaines n'est pas suffisant pour traiter l'auto-évaluation comme une vérité absolue pour l'ancrage au niveau du bloc. Les auteurs le reconnaissent ; des travaux futurs sur de meilleures mesures de citation sont explicitement mentionnés.

Pourquoi c'est important pour l'IA financière

Beancount fonctionne sur des fichiers de grand livre en texte brut, ce qui rend le RAG textuel défendable pour interroger les transactions passées. Mais la tâche comptable plus large implique des documents qui ne sont résolument pas du texte brut : PDF de relevés bancaires, factures scannées, images de reçus, rapports annuels avec tableaux et graphiques intégrés. Dès qu'un agent Beancount doit rapprocher une écriture comptable d'un document source — vérifier qu'un débit particulier correspond à la facture au dossier — il effectue exactement la tâche que FinRAGBench-V évalue.

Le résultat sur les citations au niveau du bloc est ce qui compte le plus pour ce cas d'utilisation. Si un agent doit justifier une entrée de grand livre en pointant un élément de ligne spécifique dans un PDF, et que le meilleur système disponible n'atteint que 20 à 61 % de rappel au niveau du bloc, ce n'est pas prêt pour l'audit. Tout pipeline Beancount qui traite des documents sources scannés nécessite une révision humaine jusqu'à ce que ce chiffre s'améliore considérablement.

L'écart de modalité de recherche plaide également fortement contre les pipelines purement textuels pour l'ingestion de documents. Une image de reçu porte des informations de mise en page — champs de montant, noms de fournisseurs, positions des articles — que l'OCR détruit. Cette information de mise en page est précisément ce qui distingue un total de ligne d'un montant de taxe, et FinRAGBench-V montre que les extracteurs multimodaux l'exploitent d'une manière que les extracteurs textuels ne peuvent pas.

Ce qu'il faut lire ensuite

  • ColPali: Efficient Document Retrieval with Vision Language Models — le prédécesseur de ColQwen2 qui a établi l'approche de plongement visuel de page sur laquelle repose le meilleur extracteur de FinRAGBench-V [arXiv:2407.01449, ECCV 2024]
  • M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding — s'attaque au QA visuel multi-documents avec un cadre flexible qui gère le raisonnement visuel simple et multi-sauts à travers les pages [arXiv:2411.04952]
  • Benchmarking Temporal-Aware Multi-Modal RAG in Finance — un benchmark compagnon de 2025 évaluant la sensibilité au temps dans le RAG multimodal financier, directement complémentaire à la catégorie de questions sensibles au facteur temps de FinRAGBench-V [arXiv:2503.05185]