Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern
Die Entwicklung von Finanz-LLM-Benchmarks weitet ihren Umfang stetig aus, und Fin-RATE ist das bisher deutlichste Beispiel dafür, was passiert, wenn wir Modelle endlich auffordern, das zu tun, was echte Analysten tun: ein Unternehmen nicht nur innerhalb eines einzelnen Berichts zu verfolgen, sondern über mehrere Perioden hinweg und im Vergleich zu seinen Branchenkollegen.
Das Paper
Fin-RATE, im Februar 2026 von Yidong Jiang, Junrong Chen und Kollegen der Yale University sowie kooperierenden Institutionen veröffentlicht, führt einen Benchmark ein, der auf 2.472 SEC-Filings von 43 Unternehmen aus 36 Branchen im Zeitraum 2020–2025 basiert. Der Benchmark organisiert 7.500 Experten-kuratierte QA-Paare in drei Aufgabentypen, die professionelle Analysten-Workflows widerspiegeln: DR-QA (Details und Schlussfolgerungen innerhalb eines einzelnen Berichts), EC-QA (unternehmensübergreifender Vergleich zweier Firmen zu einem gemeinsamen Thema) und LT-QA (longitudinale Verfolgung desselben Unternehmens über Berichtsperioden hinweg). Jeder Aufgabentyp umfasst 2.500 Fragen. Die Evaluierung erstreckt sich über 17 LLMs – Closed-Source-Modelle wie GPT-4.1 und GPT-5, Open-Source-Allgemeinmodelle wie DeepSeek-V3 und Llama-3.3-70B sowie finanzspezialisierte Modelle wie Fin-R1, Fino1-14B, FinanceConnect-13B und TouchstoneGPT-7B. Die Bewertung erfolgt über ein einheitliches LLM-als-Richter-Framework mit drei unabhängigen Richtern (GPT-5, DeepSeek-V3.2, Qwen3-235B), die jede Antwort hinsichtlich Korrektheit und fünf analytischen Dimensionen bewerten.
Kernideen
- Die Leistung bricht mit zunehmender Aufgabenkomplexität ein: Die Genauigkeit sinkt im Durchschnitt aller 17 Modelle um 18,60 % vom Einzeldokument-DR-QA zum longitudinalen LT-QA und um 14,35 % vom DR-QA zum unternehmensübergreifenden EC-QA.
- GPT-5 mit Websuche ist der Spitzenreiter, erreicht jedoch eine maximale Genauigkeit von nur 43–44 % über alle drei Aufgabentypen hinweg – ein klägliches Ergebnis für einen Benchmark, der reale Analysten-Workflows abbilden soll.
- Fin-R1, das auf Finanzwesen spezialisierte Reasoning-Modell, erreicht 57,48 % bei DR-QA, bricht aber bei EC-QA auf 3,32 % ein – ein Rückgang um 54 Punkte, der die Verschlechterung jedes allgemeinen Modells bei weitem übertrifft.
- Unter RAG-Bedingungen fällt die Leistung aller Modelle deutlich unter 27 %, verglichen mit einer Gold-Kontext-Leistung von bis zu 57,48 %; die Retrieval-Pipeline und nicht das LLM ist der entscheidende Engpass.
- Das Paper führt eine Fehlertaxonomie mit 13 Typen in vier Kategorien ein: Halluzinationen und Widersprüche, finanzspezifische numerische und semantische Fehler, Fehler beim Verständnis von Abfragen/Kontext und Fehler auf Retrieval-Ebene. Fehlende Beweise (Missing Evidence) machen 75,44 % der Fehler bei der EC-QA-Aufgabe unter RAG aus.
- Finanzspezialisierte Modelle zeigen bei komplexen Aufgaben systematisch höhere Halluzinationsraten als allgemeine Modelle, trotz besserer Finanzterminologie.
Was Bestand hat – und was nicht
Die Struktur mit drei Pfaden ist wirklich gut durchdacht. Die meisten Finanz-Benchmarks (FinQA, TAT-QA, FinanceBench) behandeln QA als Einzeldokument-Aufgabe. Fin-RATE ist einer der ersten, der unternehmensübergreifende Vergleiche und longitudinale Verfolgung explizit als erstklassige Aufgaben modelliert. Die Ergebnisse legen eine fundamentale Lücke offen: Aktuelle LLMs bewältigen isolierte QA zu Offenlegungen passabel, scheitern aber in dem Moment, in dem sie Informationen über Dokumente, Einheiten oder Zeiträume hinweg synthetisieren müssen.
Der Einbruch von Fin-R1 ist die auffälligste Erkenntnis des Papers und wird meiner Meinung nach unterschätzt. Ein für den Finanzbereich optimiertes Modell, das bei der Extraktion aus Einzeldokumenten glänzt, hat sich offenbar in eine Sackgasse trainiert: Es hat Vorlagen für die Beantwortung innerhalb eines Dokuments gelernt, aber keine Reasoning-Strategien, um Einheiten und Zeiträume in Beziehung zu setzen. Dies ist eine konkrete Warnung vor eng gefasstem Domänen-Feintuning ohne explizite Überwachung des multidokumentären Reasonings. Das Modell hat sich wahrscheinlich auf das flache Muster "finde die Zahl im Bericht" überfokussiert und besitzt keinen Verallgemeinerungspfad für "vergleiche diese Zahl mit der entsprechenden Zahl in einem anderen Bericht eines anderen Unternehmens".
Dennoch gibt es methodische Bedenken. GPT-5 ist gleichzeitig eines der evaluierten Modelle und einer der drei Richter, die Antworten bewerten. Die Autoren nutzen drei Richter, um individuelle Voreingenommenheit zu reduzieren, was hilft, aber die Überschneidung von Richter und Modell beim stärksten evaluierten Modell ist unangenehm. Das Paper berichtet von einer hohen Übereinstimmung zwischen den Richtern, quantifiziert jedoch nicht separat, welcher Anteil der GPT-5-Antworten von GPT-5 selbst bewertet wurde oder ob die Selbstbewertungen von GPT-5 systematisch von den anderen beiden Richtern abweichen. Jeder Selbstbewertungs-Bias würde das Gesamtergebnis für das leistungsstärkste Modell der Studie aufblähen.
Die Stichprobe von 43 Unternehmen ist zudem dünn. Die Abdeckung der Berichtstypen ist lobenswert breit (10-K, 10-Q, 8-K, 6-K, DEF 14A sowie mehrere S- und SC-Serien), aber dieselben 43 Unternehmen tauchen in allen Aufgaben auf. Modelle, die die Offenlegungen dieser Unternehmen bereits im Pre-Training gesehen haben, besitzen einen unquantifizierten Vorteil, und das Paper enthält keine Kontaminationsanalyse.
Die Erkenntnis zum Retrieval ist wichtig, aber unvollständig. Das Paper stellt fest, dass die RAG-Leistung im Vergleich zum Gold-Kontext um etwa 30 Punkte einbricht, weil das Retrieval fehlschlägt. Es wird jedoch nur ein einziges Retrieval-Setup getestet – das Scheitern des Retrievals wird eher als Diagnose denn als systematisch zu variierende Variable behandelt. Ein Folge-Paper, das verschiedene Retrieval-Architekturen auf Fin-RATE untersucht, wäre weitaus handlungsrelevanter.
Warum dies für Finanz-KI wichtig ist
Ein Beancount-Ledger-Audit benötigt genau die beiden Fähigkeiten, die laut Fin-RATE fehlerhaft sind: longitudinale Verfolgung (wie hat sich dieses Konto über die Geschäftsjahre entwickelt?) und unternehmensübergreifender Vergleich (lässt sich die Bilanz dieser Tochtergesellschaft mit dem Konzernabschluss abgleichen?). Der Genauigkeitsabfall von 18,60 % bei der zeitlichen Verfolgung ist eine konkrete Zahl, die die Erwartungen an jeden Beancount-Agenten kalibrieren sollte, der über mehrere Berichtsperioden hinweg schlussfolgert. Wenn Frontier-Modelle bei 43 % unter Gold-Kontext-Bedingungen in der longitudinalen SEC-QA scheitern, sollte ein Beancount-Agent, der durch mehrjährige Ledger-Historien navigiert, mit explizitem Retrieval, zeitlicher Fundierung und menschlicher Eskalation konzipiert werden – nicht mit End-to-End-LLM-Inferenz.
Die Erkenntnis über die Dominanz des Retrievals ist vor allem für die Priorisierung des Systemdesigns von Bedeutung. Wenn die Leistung im Gold-Kontext fast doppelt so hoch ist wie die RAG-Leistung, liegt die richtige Investition in besserem Chunking, Passagenselektion und Retrieval – nicht in einem leistungsfähigeren Backbone-LLM. Dies spiegelt wider, was DocFinQA für SEC-Filings mit langem Kontext feststellte: Die Pipeline um das Modell herum ist der Engpass.
Die Warnung bezüglich Fin-R1 gilt auch direkt für den Beancount-Anwendungsfall. Ein Feintuning auf Beancount-DSL-Syntax und Transaktionsmuster kann ein Modell hervorbringen, das die einfache Generierung von Einträgen gut beherrscht, aber bei der konten- und periodenübergreifenden Abstimmung scheitert, die ein Audit erst nützlich macht. Spezialisierung ohne Training für multidokumentäres Reasoning ist genau in der Weise fragil, wie Fin-RATE es misst.
Was man als Nächstes lesen sollte
- Fin-R1 (arXiv:2503.16252) – um zu verstehen, welches Trainings-Setup eine so instabile dokumentübergreifende Leistung hervorbrachte und ob multidokumentäres Reasoning jemals vorgesehen war.
- FinTrace (arXiv:2604.10015) – Evaluierung der Tool-Aufrufe von LLMs auf Trajektorienebene über 34 Finanzaufgabenkategorien; ergänzt die statische QA-Sicht von Fin-RATE um eine Diagnose auf Prozessebene, wo Modelle zwar die richtigen Tools aufrufen, aber das Reasoning über die Ergebnisse misslingt.
- OpenHands (arXiv:2407.16741) – die offene Agentenplattform, die den Evaluierungen von TheAgentCompany zugrunde liegt; das Verständnis ihrer Architektur klärt, welche Basis-Agentenfähigkeiten verfügbar waren und welche Lücken eher der Aufgabenschwierigkeit als Plattformlimitierungen zuzuschreiben sind.
