Zum Hauptinhalt springen

OmniEval: Omnidirektionaler RAG-Evaluations-Benchmark für den Finanzsektor

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Die meisten RAG-Benchmarks im Finanzwesen fragen lediglich, ob ein System Informationen abrufen und antworten kann – Punkt. OmniEval (EMNLP 2025, arXiv:2412.13018) von Shuting Wang et al. von der RUC stellt eine schwierigere Frage: Hält die Leistung über die gesamte Matrix von Aufgabentypen und Finanzthemen hinweg stand? Ich lese es gerade, weil es der bisher strukturierteste Versuch ist, das Fehlerprofil von RAG im Finanzwesen zu kartieren, bevor wir versuchen, zuverlässige Beancount-Ledger-Agenten auf Basis von RAG-Pipelines zu entwickeln.

Das Paper

2026-07-04-omnieval-omnidirectional-automatic-rag-evaluation-financial-domain

OmniEval konstruiert ein zweidimensionales Evaluationsraster: fünf Aufgabenklassen (extraktive QA, Multi-Hop-Argumentation, Kontrast-QA, Long-Form-QA und konversationelle QA) gekreuzt mit 16 Finanzthemen (Aktienmärkte, Investmentbanking, Fonds, Sachversicherungen und andere). Das Ergebnis ist ein strukturierter Benchmark mit 11,4k automatisch generierten Testbeispielen, 1,7k menschlich annotierten Beispielen und einem Retrieval-Korpus aus 362k Dokumenten, der aus sechs chinesischen Finanzdatenquellen zusammengestellt wurde (BSCF-DB mit 193k Dokumenten, FinGLM mit 55k, BAAI-Fin mit 48k, offizielle Web-Crawls, PDFs und Wikipedia-Finanzinhalte). Der Benchmark enthält auch einen feinabgestimmten LLM-Evaluator – Qwen2.5-7B-Instruct, trainiert auf 910 menschlich gelabelten Instanzen –, der die Generierungsqualität hinsichtlich Genauigkeit, Halluzination, Vollständigkeit, Nutzung und numerischer Genauigkeit bewertet. Das Paper wurde auf der EMNLP 2025 veröffentlicht.

Kernideen

  • Die automatisch generierten Testfälle bestanden eine menschliche Akzeptanzprüfung zu 87,47 %, was bedeutet, dass etwa jede achte generierte Instanz verworfen wurde – keine triviale Fehlerquote für einen Benchmark.
  • Der beste Retriever (GTE-Qwen2-1.5B) erreichte einen MAP-Wert von 0,4370 und einen MRR-Wert von 0,4491 auf dem automatisch generierten Set, was bedeutet, dass die am höchsten gerankte Passage selbst mit dem stärksten getesteten Retriever in weniger als der Hälfte der Fälle korrekt ist.
  • Die Generierungsgenauigkeit (ACC) über alle Retriever-LLM-Kombinationen hinweg lag zwischen 0,3238 und 0,4476 – die beste Konfiguration beantwortet weniger als die Hälfte der Fragen richtig.
  • Die numerische Genauigkeit (NAC) ist der prägnanteste Befund: 0,0659 bis 0,3595. Das beste System liefert in etwa 36 % der Fälle korrekte Finanzzahlen; das schlechteste liegt nahe Null.
  • Der feinabgestimmte Evaluator erreichte eine Übereinstimmung von 74,4 % mit menschlicher Annotation (κ = 0,6486) und übertraf damit reine Prompting-Baselines (55–71 %) deutlich – lässt jedoch immer noch jede vierte Bewertung im Widerspruch zum menschlichen Urteil.
  • Multi-Hop-Argumentation und konversationelle QA waren durchweg die schwierigsten Aufgabenklassen.

Was Bestand hat – und was nicht

Das Design der Matrix-Evaluation ist wirklich nützlich. Frühere Finanz-Benchmarks (FinanceBench, FinQA, DocFinQA) behandeln die Evaluation oft als eine einzige Achse – meist die Antwortgenauigkeit – und übersehen die strukturelle Variation, wie RAG scheitert. Zu wissen, dass ein System bei extraktiver QA gut abschneidet, aber bei Multi-Hop-Argumentation versagt, ist handlungsrelevant; zu wissen, dass es einen gewissen Gesamtdurchschnitt erreicht, ist es nicht. Das OmniEval-Raster macht diese Variation sichtbar, und die Feststellung, dass die Leistung über verschiedene Themen hinweg inkonsistent ist, ist genau das Ergebnis, das Praktiker vor dem Einsatz sehen müssen.

Dennoch gibt es reale Grenzen, die ich direkt ansprechen möchte. Der Korpus ist überwiegend chinesisch: Fünf von sechs Datenquellen sind chinesische Finanzdaten (BSCF, FinGLM, BAAI-Fin), und die sechste ist die chinesische Wikipedia. Das Paper schlüsselt die Ergebnisse nicht nach Sprachen auf – es liefert nur aggregierte Zahlen. Dies macht jeden Wert im Paper als allgemeine Aussage über Finanz-RAG verdächtig, da es sich eher um Finanz-RAG über chinesischen Texten mit spezialisierten chinesischen Retrievern und LLMs handelt (GTE-Qwen2-1.5B, Qwen2.5-72B, Yi15-34B). Englischsprachige Nutzer können diese Zahlen nicht direkt verwenden.

Der LLM-Evaluator wurde auf 910 gelabelten Instanzen trainiert. Das ist wenig. Die 74,4 % Übereinstimmung mit Menschen bei κ = 0,6486 ist als Ausgangspunkt vertretbar, bedeutet aber, dass das Evaluations-Framework selbst erhebliches Rauschen einführt. Wenn der Benchmark verwendet wird, um Systeme zu vergleichen, die sich nur um wenige Prozentpunkte unterscheiden, wird die Varianz des Evaluators das Signal überlagern.

Die automatische Generierungspipeline – GPT-4 erstellt Testfragen, Menschen filtern mit 87,47 % Akzeptanz – wirft zudem eine Kontaminationsfrage auf, die das Paper nicht thematisiert: Von GPT-4 generierte Fragen könnten die Stärken von Modellen der GPT-4-Klasse auf eine Weise bevorzugen, die ältere oder kleinere Modelle systematisch benachteiligt.

Warum das für Finanz-KI wichtig ist

Die Werte für die numerische Genauigkeit sind die Zahlen, auf die ich immer wieder zurückkomme: 0,0659–0,3595. Wenn das beste getestete RAG-System Finanzzahlen in einer Benchmark-Evaluation nur in 36 % der Fälle richtig wiedergibt, wird jeder Beancount-Write-Back-Agent, der auf einer naiven RAG-Pipeline basiert, die Buchhaltungsdaten korrumpieren. Das Beancount-Format verzeiht nichts – ein falscher Betrag, ein falsches Datum oder ein falscher Kontoname führt entweder zu einem Parsing-Fehler oder zu einem stillen Buchungsfehler, der sich über Geschäftsjahre hinweg fortpflanzen kann. Dieser Benchmark liefert uns den konkreten Beweis, dass RAG-Retrieval und LLM-Generierung noch nicht zuverlässig genug für direkte Ledger-Schreibvorgänge ohne eine Validierungsschicht sind.

Die Aufgabenklassen-Struktur lässt sich zudem direkt auf Beancount-Anwendungsfälle übertragen. Extraktive QA entspricht einfachen Saldenabfragen. Multi-Hop-Argumentation entspricht Fragen wie „Wie hoch ist mein Nettoeinkommen nach Steuern über Q1–Q3?“. Konversationelle QA entspricht einem Benutzer, der eine Abstimmungsanfrage im Laufe einer Sitzung iterativ verfeinert. OmniEvals Erkenntnis, dass Multi-Hop- und Konversationsaufgaben am schwierigsten sind, ist genau die schlechte Nachricht für das Design von Beancount-Agenten: Die einfachen Fälle funktionieren fast, aber bei den realistischen Fällen bricht das System zusammen.

Was man als Nächstes lesen sollte

  • ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation (arXiv:2311.09476, NAACL 2025) – das engste Pendant im allgemeinen Bereich zum Fine-Tuning-Ansatz des Evaluators von OmniEval; ein Vergleich der ARES-Methodik mit der von OmniEval würde klären, ob die Designentscheidungen des LLM-Evaluators prinzipienbasiert oder ad hoc sind.
  • RAGEval: Scenario-Specific RAG Evaluation Dataset Generation Framework (ACL 2025, aclanthology.org/2025.acl-long.418) – automatisierte Szenariogenerierung für die RAG-Evaluation; erweitert die von OmniEval genutzte Methodik der automatischen Generierung und könnte die Kontaminationsbedenken adressieren.
  • FinRAGBench-V: A Benchmark for Multimodal RAG with Visual Citation in the Financial Domain (arXiv:2505.17471) – erweitert die RAG-Evaluation auf multimodale Finanzdokumente (Tabellen, Diagramme); relevant, da Beancount-Nutzer zunehmend Belegbilder und PDF-Kontoauszüge neben Plain-Text-Ledgern haben.