8 Posts getaggt mit „Analytics“

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

LLM-Anomalieerkennung Survey (NAACL 2025): Starke Taxonomie, fehlende Abdeckung tabellarischer Daten

Eine kritische Analyse des NAACL 2025 Surveys von Xu und Ding zur LLM-basierten Anomalie- und OOD-Erkennung. Während die Taxonomie (Erkennung vs. Generierung) überzeugt, zwingt das fast vollständige Fehlen tabellarischer Daten Finanz-KI-Experten dazu, Erkenntnisse aus Vision-Modellen selbst zu übertragen.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern

Fin-RATE benchmarkt 17 LLMs anhand von 7.500 Experten-kuratierten QA-Paaren aus 2.472 SEC-Filings und deckt dabei einen Genauigkeitseinbruch von 18,60 % bei der longitudinalen Verfolgung sowie einen Rückgang um 54 Punkte für das spezialisierte Fin-R1 bei unternehmensübergreifenden Aufgaben auf – wobei die Retrieval-Pipeline und nicht das Basismodell den entscheidenden Engpass darstellt.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI

Das TACL-2024-Paper von Liu et al. zeigt, dass LLMs bei Informationen, die in der Mitte langer Kontexte verborgen sind, bis zu 20 Punkte schlechter abschneiden – eine U-förmige Verschlechterung, die jedes getestete Modell einschließlich Claude-1.3-100K betrifft – mit konkreten Auswirkungen darauf, wie RAG-Pipelines abgerufene Passagen in Finanz- und Buchhaltungsanwendungen anordnen sollten.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

AD-LLM-Benchmark: GPT-4o erreicht 0,93+ AUROC Zero-Shot bei der Text-Anomalieerkennung

AD-LLM testet GPT-4o und Llama 3.1 8B in drei Rollen der Anomalieerkennung – Zero-Shot-Detektor, Daten-Augmentierer und Modell-Selektor – auf fünf NLP-Datensätzen; GPT-4o erreicht AUROC 0,93–0,99 Zero-Shot, doch die LLM-basierte Modellauswahl bleibt unzuverlässig, mit direkten Auswirkungen auf KI in der Finanzprüfung.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Messung der Zuverlässigkeit von KI-Agenten in praxisnahen Tool-Nutzungs-Domänen

τ-bench zeigt, dass Top-LLMs wie Claude 3.5 Sonnet in Retail-Kundendienst-Aufgaben von pass@1 (0,692) auf pass@4 (0,462) abfallen – eine Konsistenzklippe mit direkten Folgen für jeden Write-Back-Agenten, der auf einem Beancount-Hauptbuch operiert.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: Mehrstufige Finanz-QA und der 21-Punkte-Abstand zwischen Modellen und menschlichen Experten

ConvFinQA (EMNLP 2022) erweitert FinQA um mehrstufige Konversationen über S&P 500 Ergebnisberichte und stellt fest, dass das beste feinabgestimmte Modell eine Ausführungsgenauigkeit von 68,9 % erreicht, verglichen mit 89,4 % bei menschlichen Experten – und auf 52,4 % bei hybriden, multi-aspektiven Gesprächen abfällt, in denen Modelle den numerischen Kontext über verschiedene Finanzthemen hinweg beibehalten müssen.

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: Warum Vector-Store RAG bei echten Finanzdokumenten scheitert

FinanceBench bewertet 16 KI-Konfigurationen anhand von 10.231 Fragen aus echten SEC-Einreichungen; RAG mit gemeinsamem Vektorspeicher beantwortet nur 19 % der Fragen korrekt, und selbst GPT-4-Turbo mit der Oracle-Passage erreicht nur eine Genauigkeit von 85 % – was zeigt, dass numerisches Schlussfolgern und nicht das Retrieval der entscheidende Engpass für Unternehmensfinanz-KI ist.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

Self-Consistency: Majority-Vote-Sampling steigert die Chain-of-Thought-Genauigkeit

Self-Consistency ersetzt das Greedy-Chain-of-Thought-Decoding durch eine Mehrheitsentscheidung über N gesampelte Argumentationspfade. Dies steigert die GPT-3-Genauigkeit bei GSM8K um 17,9 Prozentpunkte ohne jegliches Fine-Tuning und lässt sich direkt auf mehrstufige Finanzberechnungen anwenden, bei denen ein einzelner LLM-Durchlauf unzuverlässig ist.

Alles Über Analytics

LLM-Anomalieerkennung Survey (NAACL 2025): Starke Taxonomie, fehlende Abdeckung tabellarischer Daten

Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern

Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI

AD-LLM-Benchmark: GPT-4o erreicht 0,93+ AUROC Zero-Shot bei der Text-Anomalieerkennung

τ-bench: Messung der Zuverlässigkeit von KI-Agenten in praxisnahen Tool-Nutzungs-Domänen

ConvFinQA: Mehrstufige Finanz-QA und der 21-Punkte-Abstand zwischen Modellen und menschlichen Experten

FinanceBench: Warum Vector-Store RAG bei echten Finanzdokumenten scheitert

Self-Consistency: Majority-Vote-Sampling steigert die Chain-of-Thought-Genauigkeit

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches