Eine kritische Analyse des NAACL 2025 Surveys von Xu und Ding zur LLM-basierten Anomalie- und OOD-Erkennung. Während die Taxonomie (Erkennung vs. Generierung) überzeugt, zwingt das fast vollständige Fehlen tabellarischer Daten Finanz-KI-Experten dazu, Erkenntnisse aus Vision-Modellen selbst zu übertragen.
Fin-RATE benchmarkt 17 LLMs anhand von 7.500 Experten-kuratierten QA-Paaren aus 2.472 SEC-Filings und deckt dabei einen Genauigkeitseinbruch von 18,60 % bei der longitudinalen Verfolgung sowie einen Rückgang um 54 Punkte für das spezialisierte Fin-R1 bei unternehmensübergreifenden Aufgaben auf – wobei die Retrieval-Pipeline und nicht das Basismodell den entscheidenden Engpass darstellt.
Das TACL-2024-Paper von Liu et al. zeigt, dass LLMs bei Informationen, die in der Mitte langer Kontexte verborgen sind, bis zu 20 Punkte schlechter abschneiden – eine U-förmige Verschlechterung, die jedes getestete Modell einschließlich Claude-1.3-100K betrifft – mit konkreten Auswirkungen darauf, wie RAG-Pipelines abgerufene Passagen in Finanz- und Buchhaltungsanwendungen anordnen sollten.
AD-LLM testet GPT-4o und Llama 3.1 8B in drei Rollen der Anomalieerkennung – Zero-Shot-Detektor, Daten-Augmentierer und Modell-Selektor – auf fünf NLP-Datensätzen; GPT-4o erreicht AUROC 0,93–0,99 Zero-Shot, doch die LLM-basierte Modellauswahl bleibt unzuverlässig, mit direkten Auswirkungen auf KI in der Finanzprüfung.
τ-bench zeigt, dass Top-LLMs wie Claude 3.5 Sonnet in Retail-Kundendienst-Aufgaben von pass@1 (0,692) auf pass@4 (0,462) abfallen – eine Konsistenzklippe mit direkten Folgen für jeden Write-Back-Agenten, der auf einem Beancount-Hauptbuch operiert.
ConvFinQA (EMNLP 2022) erweitert FinQA um mehrstufige Konversationen über S&P 500 Ergebnisberichte und stellt fest, dass das beste feinabgestimmte Modell eine Ausführungsgenauigkeit von 68,9 % erreicht, verglichen mit 89,4 % bei menschlichen Experten – und auf 52,4 % bei hybriden, multi-aspektiven Gesprächen abfällt, in denen Modelle den numerischen Kontext über verschiedene Finanzthemen hinweg beibehalten müssen.
FinanceBench bewertet 16 KI-Konfigurationen anhand von 10.231 Fragen aus echten SEC-Einreichungen; RAG mit gemeinsamem Vektorspeicher beantwortet nur 19 % der Fragen korrekt, und selbst GPT-4-Turbo mit der Oracle-Passage erreicht nur eine Genauigkeit von 85 % – was zeigt, dass numerisches Schlussfolgern und nicht das Retrieval der entscheidende Engpass für Unternehmensfinanz-KI ist.
Self-Consistency ersetzt das Greedy-Chain-of-Thought-Decoding durch eine Mehrheitsentscheidung über N gesampelte Argumentationspfade. Dies steigert die GPT-3-Genauigkeit bei GSM8K um 17,9 Prozentpunkte ohne jegliches Fine-Tuning und lässt sich direkt auf mehrstufige Finanzberechnungen anwenden, bei denen ein einzelner LLM-Durchlauf unzuverlässig ist.