Zum Hauptinhalt springen

TAT-LLM: Feinabgestimmtes LLaMA 2 für diskretes logisches Schließen über Finanztabellen und Texte

· 6 Minuten Lesezeit
Mike Thrift
Mike Thrift
Marketing Manager

Nach einer Woche mit Schwerpunkt auf Retrieval und Knowledge Injection wollte ich mir die andere Seite ansehen: Was bringt eine gezielte Feinabstimmung (Fine-Tuning) tatsächlich, wenn die Aufgabe klar definiert ist? TAT-LLM (arXiv:2401.13223, ICAIF 2024) liefert eine der deutlichsten Antworten: Man optimiere LLaMA 2 mit einer strukturierten Pipeline für Finanz-Benchmarks zur Beantwortung von Fragen über Tabellen und Texte und schlage GPT-4. Der Haken liegt wie üblich im Detail.

Die Publikation

2026-05-21-tat-llm-specialized-language-model-discrete-reasoning-tabular-textual

Fengbin Zhu, Ziyang Liu, Fuli Feng, Chao Wang, Moxin Li und Tat-Seng Chua von NExT++ an der NUS präsentieren TAT-LLM, ein LLaMA-2-Modell, das für diskretes logisches Schließen über hybride tabellarische und textuelle Daten feinabgestimmt wurde. Das Kernproblem besteht darin, numerische Fragen zu Finanzberichten zu beantworten – die Art von Fragen, bei denen man eine bestimmte Zeile in einer Tabelle finden, zwei Zahlen extrahieren und eine mehrstufige Rechenoperation durchführen muss, um zu einem Ergebnis zu kommen. Genau das tun Menschen beim Lesen von 10-K-Berichten.

Anstatt ein großes Modell End-to-End zu prompten, unterteilen die Autoren die Aufgabe in drei explizite Schritte: einen Extractor, der relevante numerische Belege aus dem Dokument identifiziert, einen Reasoner, der einen arithmetischen Ausdruck erstellt, und einen Executor, der den Ausdruck deterministisch ausführt. Die Trainingsdaten werden automatisch aus bestehenden, von Experten annotierten Datensätzen – FinQA, TAT-QA und TAT-DQA – generiert, indem jede Instanz mit den Zwischenschritten der Extraktion und des logischen Schließens versehen wird. Die Feinabstimmung nutzt LoRA über drei LLaMA-2-Größen hinweg: 7B, 13B und 70B.

Kernideen

  • Pipeline-Dekomposition schlägt End-to-End: Der externe Executor (deterministische Arithmetik) bringt allein für das 7B-Modell +16,66 EM-Punkte auf FinQA. Die Arithmetik ist für das Modell nicht schwieriger – sie ist nur katastrophal unzuverlässig, wenn sie in natürlicher Sprache durchgeführt wird.
  • 7B schlägt GPT-4 in allen drei Benchmarks: TAT-LLM 7B erreicht 64,60 % EM auf FinQA (gegenüber 63,91 % bei GPT-4), 74,56 % EM auf TAT-QA (gegenüber 71,92 %) und 69,45 % EM auf TAT-DQA (gegenüber 64,46 %). Die Differenz bei TAT-DQA ist mit fast 5 Punkten am überzeugendsten.
  • Die Extraktion ist die größte Fehlerquelle: Die Fehleranalyse zeigt, dass 48 % der Fehler auf eine falsche Extraktion von Belegen zurückzuführen sind – das Modell identifiziert die falsche Zeile, die falsche Spalte oder liest eine Zahl aufgrund unbekannter Finanzterminologie falsch. Nur 19 % sind falsche Operatoren.
  • Skalierung hilft moderat: Die gemeinsam trainierte 70B-Variante (TAT-LLM-All) steigert FinQA auf 76,81 % EM und TAT-QA auf 81,42 % F1, was bedeutende Zuwächse sind. Aber das 7B-Modell übertrifft bereits GPT-4, was darauf hindeutet, dass die Pipeline-Struktur wichtiger ist als die Parameteranzahl.
  • Menschliche Experten bleiben weit voraus: Bei TAT-QA liegt die menschliche Leistung bei 90,8 % F1; das beste TAT-LLM-Ergebnis beträgt 81,42 % F1. Die Lücke ist real, und das Papier erkennt dies an.

Was Bestand hat – und was nicht

Der technische Kernbeitrag ist solide: Die Auslagerung der Arithmetik an einen deterministischen Executor ist offensichtlich die richtige Entscheidung, und die Ablationsstudie beweist dies deutlich. Dies ist eine bekannte Erkenntnis aus PAL und ähnlichen Arbeiten, aber sie hier quantifiziert zu sehen (+16,66 Punkte) auf einem finanzspezifischen Benchmark ist eine wertvolle Bestätigung.

Skeptischer bin ich gegenüber der Schlagzeile „besser als GPT-4“. Der Vorsprung bei FinQA beträgt 0,69 EM-Punkte – was im Grunde im Bereich des Rauschens liegt. Zudem spiegeln die GPT-4-Zahlen eine Evaluation ohne Vorbeispiele (Zero-Shot) oder mit nur leichtem Prompting wider, nicht GPT-4 mit Chain-of-Thought, Few-Shot-Beispielen oder eigenem Code-Interpreter. Ein gepromptetes GPT-4 mit Python-Tool-Nutzung würde diese Zahlen fast sicher übertreffen. Der Vergleich ist nicht falsch, aber er entspricht nicht ganz der Geschichte vom „Sieg der Spezialisierung“, die das Abstract suggeriert.

Zudem besteht die Sorge eines erheblichen Evaluation Leaks. Das Modell wurde auf den Trainings-Splits von FinQA, TAT-QA und TAT-DQA feinabgestimmt und auf deren Test-Splits evaluiert. Das ist ein enges In-Distribution-Szenario. Die Arbeit enthält keine separate Finanz-QA-Aufgabe, die das Modell während des Trainings nie gesehen hat, daher ist die Generalisierung auf neue Dokumenttypen oder neue Rechenmuster nicht bewiesen.

Die Kontextgrenze von 4.096 Token ist ein praktisches Hindernis für reale Finanzberichte. Ein typischer 10-K-Bericht umfasst über 100 Seiten; selbst eine einzelne Quartalsmitteilung überschreitet oft 4.096 Token. Das beschriebene Modell kann die Eingaben, für die es entwickelt wurde, ohne Chunking nicht verarbeiten, und die Arbeit geht nicht darauf ein, wie die Extraktion leidet, wenn sich die Belege über mehrere Chunks erstrecken.

Warum das für Finanz-KI wichtig ist

Die Zerlegung in Extractor, Reasoner und Executor ist direkt auf Beancount-Agenten übertragbar. Wenn ein Benutzer fragt: „Wie hoch waren meine gesamten Lebensmittelausgaben im 1. Quartal 2025 im Vergleich zum 1. Quartal 2024?“, ist die natürliche Struktur: die relevanten Transaktionen finden (Extract), einen Aggregationsausdruck erstellen (Reason) und diesen gegen das Hauptbuch ausführen (Execute). Die Fehleranalyse von TAT-LLM liefert eine konkrete Vorhersage: Der Extraktionsschritt wird dort sein, wo ein Beancount-Agent am häufigsten scheitert – falsche Kontokategorien, fehlende Transaktionen, falsch gelesene Beträge – und nicht bei der Arithmetik.

Der LoRA-Fine-Tuning-Ansatz ist auch für jeden relevant, der ein Beancount-spezifisches Modell entwickelt. Die Strategie zur Generierung von Trainingsdaten – von Experten annotierte QA-Paare nehmen und sie mit Zwischenschritten versehen – ist genau der Weg, wie man einen Hauptbuch-spezifischen Datensatz für logisches Schließen aufbauen würde. Man hat die Ground-Truth-Einträge im Hauptbuch und kann automatisch Tupel aus (Frage, Extraktion, Ausdruck, Antwort) generieren.

Das Kontextlimit ist der größte Blocker. Ein produktiver Beancount-Agent muss über Einträge aus mehreren Jahren hinweg logisch schließen können. Das Modell in der Publikation leistet das nicht; es ist eine starke Baseline für QA auf kurzen Dokumenten, die durch Chunking, Retrieval oder ein längeres Kontextfenster erweitert werden muss, um praxistauglich zu werden.

Was man als Nächstes lesen sollte

  • FinQA (arXiv:2109.00122, EMNLP 2021) – der ursprüngliche Benchmark, auf dem TAT-LLM evaluiert wird. Das Lesen klärt genau, was „diskretes logisches Schließen über Finanzdaten“ bedeutet und wie der bisherige Stand der Technik (SOTA) vor LLMs aussah.
  • TAGOP (Teil des TAT-QA-Papers, arXiv:2105.07624, ACL 2021) – das tabellenbewusste Operatormodell, das die TAT-QA-Aufgabe definierte. Zu verstehen, wie eine regelbasierte Operatorauswahl aussieht, bietet einen Referenzpunkt dafür, was der LLM-basierte Reasoner-Schritt ersetzt.
  • AuditCopilot (arXiv:2512.02726) – evaluiert LLaMA und Gemma bei der Erkennung von Anomalien in Journalbuchungen auf echten Hauptbuchdaten. Die natürliche Anschlussfrage nach TAT-LLM ist, ob derselbe Fine-Tuning-Ansatz auch auf die Anomalieerkennung anstatt nur auf QA übertragbar ist.