Zum Hauptinhalt springen

Bean Labs Research Log

LLMs sind für Zeitreihen-Vorhersagen nicht nützlich: Was die NeurIPS 2024 für Finanz-KI bedeutet

Ein NeurIPS 2024 Spotlight-Paper untersucht drei LLM-basierte Zeitreihen-Vorhersagemethoden — OneFitsAll, Time-LLM und CALF — und stellt fest, dass das Entfernen des Sprachmodells die Genauigkeit in den meisten Fällen verbessert, bei einer bis zu 1.383-fachen Trainingsbeschleunigung. Für Finanz-KI-Anwendungen wie die Beancount-Kontostandsprognose schlagen leichtgewichtige, zweckgebundene Modelle konsequent zweckentfremdete LLMs.

Latest articles

AuditCopilot: LLMs zur Betrugserkennung in der doppelten Buchführung

AuditCopilot nutzt Open-Source-LLMs (Mistral-8B, Gemma, Llama-3.1) zur Betrugserkennung in Journalbuchungen von Unternehmen und reduziert falsch-positive Ergebnisse von 942 auf 12 – doch Ablationsstudien zeigen, dass das LLM primär als Syntheseschicht über Isolation-Forest-Scores fungiert und nicht als eigenständiger Anomaliedetektor.

TAT-LLM: Feinabgestimmtes LLaMA 2 für diskretes logisches Schließen über Finanztabellen und Texte

TAT-LLM optimiert LLaMA 2 7B mittels LoRA für Finanz-Benchmarks zur Beantwortung von Fragen zu Tabellen und Texten. Mit 64,60 % EM auf FinQA übertrifft es GPT-4 (63,91 %), indem es logisches Schließen in deterministische Extraktions-, Analyse- und Ausführungsschritte unterteilt, um Rechenfehler zu eliminieren.

Fine-Tuning vs. RAG: Warum Retrieval bei der Injektion von neuem Wissen in LLMs gewinnt

Ein empirischer Vergleich von RAG gegenüber unüberwachtem Fine-Tuning bei 7B-Parameter-LLMs zeigt, dass RAG eine Genauigkeit von über 0,875 bei Fakten nach dem Wissensstopp erreicht, während Fine-Tuning bei 0,504 stagniert – mit direkten Auswirkungen auf das Design von Beancount-Agenten und Systemen, die häufige Wissensaktualisierungen erfordern.

FLARE: Aktive Retrieval Augmented Generation

FLARE (EMNLP 2023) verbessert Standard-RAG, indem es das Retrieval während der Generierung mittels Token-Wahrscheinlichkeits-Schwellenwerten auslöst. Es erreicht 51,0 EM bei 2WikiMultihopQA im Vergleich zu 39,4 bei Single-Retrieval – doch Kalibrierungsfehler in instruktionsoptimierten Chat-Modellen schränken die Zuverlässigkeit für produktive Finanz-Agenten ein.

Retrieval-Augmented Generation für wissensintensive NLP-Aufgaben

Das NeurIPS-2020-Paper von Lewis et al. führte die hybride RAG-Architektur ein – einen BART-large-Generator gepaart mit einem FAISS-indexierten Retriever über 21 Millionen Wikipedia-Passagen – erreichte 44,5 EM bei Natural Questions und etablierte die parametrische/nicht-parametrische Aufteilung, die heute den meisten KI-Produktionssystemen zugrunde liegt. Diese Rezension behandelt die Abwägungen zwischen RAG-Sequence und RAG-Token, den Fehlermodus des Retrieval-Collapse und was veraltete Indizes für Finanz-KI bedeuten, die auf Append-only-Beancount-Hauptbüchern aufbaut.

MultiHiertt: Benchmarking für numerisches Schlussfolgern über multi-hierarchische Finanztabellen

MultiHiertt (ACL 2022) führt 10.440 QA-Paare aus echten Finanzberichten mit durchschnittlich 3,89 hierarchischen Tabellen ein; modernste Modelle erreichen einen F1-Score von 38 % gegenüber 87 % bei Menschen, mit einem Malus von 15 Punkten bei tabellenübergreifenden Fragen – eine Quantifizierung der Retrieval-Lücke, die Finanz-KI schließen muss.

ConvFinQA: Mehrstufige Finanz-QA und der 21-Punkte-Abstand zwischen Modellen und menschlichen Experten

ConvFinQA (EMNLP 2022) erweitert FinQA um mehrstufige Konversationen über S&P 500 Ergebnisberichte und stellt fest, dass das beste feinabgestimmte Modell eine Ausführungsgenauigkeit von 68,9 % erreicht, verglichen mit 89,4 % bei menschlichen Experten – und auf 52,4 % bei hybriden, multi-aspektiven Gesprächen abfällt, in denen Modelle den numerischen Kontext über verschiedene Finanzthemen hinweg beibehalten müssen.

TAT-QA: Hybrid Table-Text QA Benchmark für logisches Schließen in Geschäftsberichten

TAT-QA ist ein Benchmark mit 16.552 Fragen zu hybriden Kontexten aus Tabellen und Texten in Finanzberichten. Er zeigt, dass das Grounding von Belegen – nicht die Arithmetik – der zentrale Engpass in der Finanz-KI ist; bis 2024 erreichten feinabgestimmte 7B LLMs einen F1-Wert von 83 % und schlossen damit einen Großteil der Lücke zum menschlichen Maximum von 91 %.