AuditCopilot nutzt Open-Source-LLMs (Mistral-8B, Gemma, Llama-3.1) zur Betrugserkennung in Journalbuchungen von Unternehmen und reduziert falsch-positive Ergebnisse von 942 auf 12 – doch Ablationsstudien zeigen, dass das LLM primär als Syntheseschicht über Isolation-Forest-Scores fungiert und nicht als eigenständiger Anomaliedetektor.
TAT-LLM optimiert LLaMA 2 7B mittels LoRA für Finanz-Benchmarks zur Beantwortung von Fragen zu Tabellen und Texten. Mit 64,60 % EM auf FinQA übertrifft es GPT-4 (63,91 %), indem es logisches Schließen in deterministische Extraktions-, Analyse- und Ausführungsschritte unterteilt, um Rechenfehler zu eliminieren.
Ein empirischer Vergleich von RAG gegenüber unüberwachtem Fine-Tuning bei 7B-Parameter-LLMs zeigt, dass RAG eine Genauigkeit von über 0,875 bei Fakten nach dem Wissensstopp erreicht, während Fine-Tuning bei 0,504 stagniert – mit direkten Auswirkungen auf das Design von Beancount-Agenten und Systemen, die häufige Wissensaktualisierungen erfordern.
IRCoT verschachtelt das BM25-Retrieval mit jedem Schritt einer Chain-of-Thought-Argumentationsschleife und erreicht im Vergleich zu einstufigem RAG ein um +11,3 höheres Retrieval-Recall sowie +7,1 F1 auf HotpotQA – und zeigt, dass ein 3B-Modell GPT-3 175B schlagen kann, wenn die Retrieval-Strategie stimmt.
FLARE (EMNLP 2023) verbessert Standard-RAG, indem es das Retrieval während der Generierung mittels Token-Wahrscheinlichkeits-Schwellenwerten auslöst. Es erreicht 51,0 EM bei 2WikiMultihopQA im Vergleich zu 39,4 bei Single-Retrieval – doch Kalibrierungsfehler in instruktionsoptimierten Chat-Modellen schränken die Zuverlässigkeit für produktive Finanz-Agenten ein.
Das NeurIPS-2020-Paper von Lewis et al. führte die hybride RAG-Architektur ein – einen BART-large-Generator gepaart mit einem FAISS-indexierten Retriever über 21 Millionen Wikipedia-Passagen – erreichte 44,5 EM bei Natural Questions und etablierte die parametrische/nicht-parametrische Aufteilung, die heute den meisten KI-Produktionssystemen zugrunde liegt. Diese Rezension behandelt die Abwägungen zwischen RAG-Sequence und RAG-Token, den Fehlermodus des Retrieval-Collapse und was veraltete Indizes für Finanz-KI bedeuten, die auf Append-only-Beancount-Hauptbüchern aufbaut.
MultiHiertt (ACL 2022) führt 10.440 QA-Paare aus echten Finanzberichten mit durchschnittlich 3,89 hierarchischen Tabellen ein; modernste Modelle erreichen einen F1-Score von 38 % gegenüber 87 % bei Menschen, mit einem Malus von 15 Punkten bei tabellenübergreifenden Fragen – eine Quantifizierung der Retrieval-Lücke, die Finanz-KI schließen muss.
ConvFinQA (EMNLP 2022) erweitert FinQA um mehrstufige Konversationen über S&P 500 Ergebnisberichte und stellt fest, dass das beste feinabgestimmte Modell eine Ausführungsgenauigkeit von 68,9 % erreicht, verglichen mit 89,4 % bei menschlichen Experten – und auf 52,4 % bei hybriden, multi-aspektiven Gesprächen abfällt, in denen Modelle den numerischen Kontext über verschiedene Finanzthemen hinweg beibehalten müssen.
TAT-QA ist ein Benchmark mit 16.552 Fragen zu hybriden Kontexten aus Tabellen und Texten in Finanzberichten. Er zeigt, dass das Grounding von Belegen – nicht die Arithmetik – der zentrale Engpass in der Finanz-KI ist; bis 2024 erreichten feinabgestimmte 7B LLMs einen F1-Wert von 83 % und schlossen damit einen Großteil der Lücke zum menschlichen Maximum von 91 %.