Zum Hauptinhalt springen

FinRAGBench-V: Multimodales RAG mit visuellen Zitaten im Finanzbereich

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

KI im Finanzwesen wurde bisher von rein textbasiertem RAG dominiert, aber echte Finanzdokumente sind voll von Diagrammen, Tabellen und Abbildungen, die OCR nicht vollständig erfassen kann. FinRAGBench-V (EMNLP 2025) ist der erste umfangreiche Benchmark zur Evaluierung von multimodalem RAG mit visuellen Zitaten im Finanzbereich – und seine Ergebnisse sind eine nüchterne Erinnerung daran, wie weit Produktivsysteme noch von der Perfektion entfernt sind.

Das Paper

2026-07-12-finragbench-v-multimodal-rag-visual-citation-financial-domain

Zhao, Jin, Li und Gao von der Peking-Universität stellen FinRAGBench-V vor, einen bilingualen Benchmark, der aus realen Finanzdokumenten konstruiert wurde: Analysen, Geschäftsberichte, Prospekte, wissenschaftliche Arbeiten, Magazine und Nachrichtenartikel. Der Retrieval-Korpus ist beträchtlich – 60.780 chinesische und 51.219 englische Seiten in etwa 1.100 Dokumenten pro Sprache – kombiniert mit 1.394 von Menschen annotierten Frage-Antwort-Paaren, die sieben Kategorien abdecken: Textinferenz, Extraktion von Diagrammen und Tabellen, numerische Berechnungen, zeitkritische Abfragen und mehrseitige Schlussfolgerungen. Über den Datensatz hinaus ist der zentrale Beitrag des Papers RGenCite, ein Basissystem, das Antworten zusammen mit visuellen Zitaten auf Pixelebene in Form von Bounding-Box-Koordinaten generiert, die die spezifischen Dokumentregionen markieren, die jede Behauptung stützen.

Kernideen

  • Multimodales Retrieval dominiert Text-Only mit gewaltigem Vorsprung: ColQwen2, ein Vision-Language-Retriever, der auf Seitenbild-Embeddings basiert, erreicht einen Recall@10 von 90,13 % (Chinesisch) und 85,86 % (Englisch). Die besten textbasierten Retriever, BM25 und BGE-M3, kommen lediglich auf etwa 42,71 %. Diese Lücke ist kein Rundungsfehler.
  • Die Genauigkeit der Generierung ist selbst bei Spitzenmodellen gering: GPT-4o erreicht im Englischen eine Genauigkeit von 43,41 % (ROUGE 24,66); o4-mini erreicht im Chinesischen 58,13 % (ROUGE 38,55). Dies sind proprietäre Top-Modelle mit starkem Retrieval im Hintergrund.
  • Zitate auf Seitenebene funktionieren; auf Blockebene nicht: Der Recall auf Seitenebene liegt bei den besten Modellen bei 75–93 %. Der Recall auf Blockebene – also das Wissen, welche spezifische Tabellenzelle oder welcher Diagrammbereich eine Behauptung stützt – sinkt auf 20–61 %. Dies ist die entscheidende Lücke für die Revisionssicherheit.
  • Numerisches Denken und mehrseitige Inferenz bringen Modelle zuerst an ihre Grenzen: Fragen, die Berechnungen über mehrere Seiten oder Zeitspannen hinweg erfordern, weisen bei allen getesteten Systemen den stärksten Genauigkeitseinbruch auf.
  • Proprietäre Modelle schneiden deutlich besser ab als Open-Source-Alternativen: Die Kluft zwischen geschlossenen APIs und Open-Source ist hier größer als bei den meisten NLP-Benchmarks, was darauf hindeutet, dass visuelles logisches Schließen im Finanzbereich für offene Modelle noch ungelöst ist.
  • Auto-Evaluierung für Zitate ist unvollkommen: Der auf Bild-Cropping basierende Zitat-Evaluator erreicht ein Pearson r = 0,68 im Vergleich zu menschlichen Urteilen – akzeptabel, aber nicht verlässlich genug, um ohne Stichproben darauf zu vertrauen.

Was Bestand hat – und was nicht

Das Ergebnis zum Retrieval ist das glaubwürdigste Resultat des Papers. Eine Differenz von fast 50 Prozentpunkten zwischen multimodalen und rein textbasierten Retrievern bei über 60.000 Seiten ist zu groß, um sie zu ignorieren. Wenn man ein Finanzdokument vor der Indexierung per OCR verarbeitet, zerstört man strukturelle Layout-Signale – etwa, in welcher Spalte eine Zahl steht oder ob eine Bildunterschrift die Interpretation einer Tabelle modifiziert –, die für das Retrieval enorm wichtig sind.

Die Zahlen zur Generierung sind ehrlich, aber isoliert betrachtet schwer zu interpretieren. Die Autoren schlüsseln nicht auf, wie viel der Genauigkeitslücke auf Retrieval-Fehler gegenüber Generierungsfehlern zurückzuführen ist. Da der Recall@10 für Englisch bereits bei 85,86 % liegt, muss ein erheblicher Teil der Fehler auf der Generierungsseite liegen. Eine solche Aufschlüsselung würde klären, ob der Flaschenhals das multimodale Denken an sich ist oder etwas Grundsätzlicheres in der Art und Weise, wie MLLMs Finanzsprache verarbeiten.

Das Evaluierungsset von 1.394 Frage-Antwort-Paaren ist für die Tragweite des Benchmarks eher klein. Verteilt auf sieben Kategorien und zwei Sprachen weisen einige Segmente deutlich weniger als 200 Beispiele auf. Die statistische Signifikanz der Ergebnisse auf Kategorieebene bleibt implizit. Dies ist für Benchmark-Paper nicht ungewöhnlich, bedeutet aber, dass gezielt ausgewählte Vergleiche ("Cherry-Picking") leicht zu konstruieren wären.

Das Protokoll zur Evaluierung der Zitate ist ein interessanter Beitrag, aber Pearson r = 0,68 im Vergleich zu menschlichen Bewertungen ist nicht stark genug, um die automatische Evaluierung als absolute Wahrheit für die Verankerung auf Blockebene zu betrachten. Die Autoren räumen dies ein; zukünftige Arbeiten an besseren Zitationsmetriken werden explizit als notwendig markiert.

Warum dies für Finanz-KI wichtig ist

Beancount arbeitet mit Plain-Text-Ledger-Dateien, was rein textbasiertes RAG für die Abfrage vergangener Transaktionen vertretbar macht. Aber die breitere Buchhaltungsaufgabe umfasst Dokumente, die ausdrücklich kein reiner Text sind: Bankauszug-PDFs, gescannte Rechnungen, Quittungsbilder, Geschäftsberichte mit eingebetteten Tabellen und Diagrammen. In dem Moment, in dem ein Beancount-Agent einen Ledger-Eintrag mit einem Quelldokument abgleichen muss – zum Beispiel um zu verifizieren, ob eine bestimmte Abbuchung mit der hinterlegten Rechnung übereinstimmt – führt er genau die Aufgabe aus, die FinRAGBench-V benchmarkt.

Das Ergebnis zum Citation-Recall auf Blockebene ist für diesen Anwendungsfall am wichtigsten. Wenn ein Agent eine Buchung begründen muss, indem er auf einen spezifischen Posten in einem PDF verweist, und das beste verfügbare System nur 20–61 % Recall auf Blockebene erreicht, ist das nicht revisionssicher. Jede Beancount-Pipeline, die gescannte Quelldokumente verarbeitet, benötigt eine menschliche Überprüfung (Human-in-the-Loop), bis sich diese Werte deutlich verbessern.

Die Lücke in der Retrieval-Modalität spricht zudem stark gegen reine Text-Pipelines bei der Dokumentenerfassung. Ein Quittungsbild enthält Layout-Informationen – Betragsfelder, Händlernamen, Positionen von Einzelposten –, die durch OCR zerstört werden. Genau diese Layout-Informationen unterscheiden einen Gesamtbetrag von einem Steuerbetrag, und FinRAGBench-V zeigt, dass multimodale Retriever diese Informationen auf eine Weise nutzen, wie es Text-Retriever nicht können.

Was Sie als Nächstes lesen sollten

  • ColPali: Efficient Document Retrieval with Vision Language Models – der Vorgänger von ColQwen2, der den Ansatz der visuellen Seiten-Embeddings etablierte, auf dem der beste Retriever von FinRAGBench-V aufbaut [arXiv:2407.01449, ECCV 2024]
  • M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding – befasst sich mit multimodaler QA über mehrere Dokumente hinweg mit einem flexiblen Framework für ein- und mehrstufiges visuelles Schließen [arXiv:2411.04952]
  • Benchmarking Temporal-Aware Multi-Modal RAG in Finance – ein ergänzender Benchmark aus dem Jahr 2025, der die Zeitsensitivität in finanziellem multimodalem RAG bewertet, direkt komplementär zur zeitkritischen Fragekategorie von FinRAGBench-V [arXiv:2503.05185]