Mike Thrift

Marketing Manager

June 30, 2026·mike

OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet

OpenHands ist eine MIT-lizenzierte, Docker-sandboxed Agenten-Plattform, bei der CodeAct 26 % auf SWE-Bench Lite erreicht – ein ernüchternder Benchmark, der festlegt, was KI-Agenten heute zuverlässig leisten können und warum die ersten produktiven Finanzeinsätze eng gefasst und nicht autonom sein sollten.

open-source

automation

June 29, 2026·mike

Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern

Fin-RATE benchmarkt 17 LLMs anhand von 7.500 Experten-kuratierten QA-Paaren aus 2.472 SEC-Filings und deckt dabei einen Genauigkeitseinbruch von 18,60 % bei der longitudinalen Verfolgung sowie einen Rückgang um 54 Punkte für das spezialisierte Fin-R1 bei unternehmensübergreifenden Aufgaben auf – wobei die Retrieval-Pipeline und nicht das Basismodell den entscheidenden Engpass darstellt.

llm

machine-learning

June 28, 2026·mike

FinDER: Reale Analystenanfragen decken eine Recall-Lücke von 74 % bei Finanz-RAG auf

FinDER bewertet RAG anhand von 5.703 realen Anfragen von Hedgefonds-Analysten zu S&P 500 10-K-Berichten; E5-Mistral erreicht nur 25,95 % Kontext-Recall, und abkürzungsintensive Anfragen kosten 8,2 Präzisionspunkte – ein Beleg dafür, dass die Abfragenormalisierung und nicht bessere Embeddings die erste Lösung für Finanz-KI-Pipelines ist.

llm

machine-learning

June 27, 2026·mike

Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI

Das TACL-2024-Paper von Liu et al. zeigt, dass LLMs bei Informationen, die in der Mitte langer Kontexte verborgen sind, bis zu 20 Punkte schlechter abschneiden – eine U-förmige Verschlechterung, die jedes getestete Modell einschließlich Claude-1.3-100K betrifft – mit konkreten Auswirkungen darauf, wie RAG-Pipelines abgerufene Passagen in Finanz- und Buchhaltungsanwendungen anordnen sollten.

llm

machine-learning

June 26, 2026·mike

AD-LLM-Benchmark: GPT-4o erreicht 0,93+ AUROC Zero-Shot bei der Text-Anomalieerkennung

AD-LLM testet GPT-4o und Llama 3.1 8B in drei Rollen der Anomalieerkennung – Zero-Shot-Detektor, Daten-Augmentierer und Modell-Selektor – auf fünf NLP-Datensätzen; GPT-4o erreicht AUROC 0,93–0,99 Zero-Shot, doch die LLM-basierte Modellauswahl bleibt unzuverlässig, mit direkten Auswirkungen auf KI in der Finanzprüfung.

llm

machine-learning

June 25, 2026·mike

CausalTAD: Kausale Spaltenordnung für die Tabellen-Anomalieerkennung mit LLMs

CausalTAD verbessert die LLM-basierte Tabellen-Anomalieerkennung durch die Neuanordnung von Tabellenspalten gemäß kausalen Abhängigkeiten vor der Serialisierung. Dies steigert den durchschnittlichen AUC-ROC von 0,803 auf 0,834 gegenüber AnoLLM bei Benchmarks mit gemischten Datentypen — mit direkten Auswirkungen auf die Erkennung von Anomalien in strukturierten Buchhaltungsdaten.

llm

machine-learning

June 24, 2026·mike

AnoLLM: Fine-Tuning von LLMs zur tabellarischen Anomalieerkennung in Finanzdaten

AnoLLM (ICLR 2025) formuliert die tabellarische Anomalieerkennung als LLM-Dichteschätzung neu – durch Feintuning auf normalen Zeilen und Bewertung mittels negativer Log-Likelihood. Es übertrifft klassische Methoden bei gemischten Betrugsdatensätzen, bietet jedoch keinen Vorteil bei rein numerischen Daten, was konkrete Auswirkungen auf die Erkennung von Anomalien in Beancount-Journalen hat.

llm

machine-learning

June 23, 2026·mike

LLMs erreichen 2,3 % bei der Beancount DSL-Generierung: Der LLMFinLiteracy-Benchmark

Der LLMFinLiteracy-Benchmark zeigt, dass fünf Open-Weight-Modelle der ~7B-Klasse nur in 2,3 % der Fälle vollständig korrekte Beancount-Transaktionen generieren. Fehler konzentrieren sich auf buchhalterische Logik statt Syntax, was Compiler-Feedback als entscheidendes Element für zuverlässige Write-Back-Agenten hervorhebt.

llm

beancount

plain-text-accounting

June 22, 2026·mike

TableMaster: Adaptives Denken für das Tabellenverständnis mit LLMs

TableMaster ist eine reine Prompting-Pipeline, die mit GPT-4o-mini 78,13 % auf WikiTQ erreicht – 13 Prozentpunkte mehr als Chain-of-Table – durch die Kombination von Table-of-Focus-Extraktion, semantischer Verbalisierung und adaptivem Wechsel zwischen textuellem und symbolischem Denken. Erfahren Sie hier, was diese Architektur für KI-Agenten über Finanz-Hauptbüchern wie Beancount bedeutet.

llm

machine-learning

June 21, 2026·mike

Zero-Shot-Anomalieerkennung mit LLMs: Wie GPT-4 bei tabellarischen Daten abschneidet

GPT-4 erreicht einen durchschnittlichen AUROC von 74,1 im ODDS-Benchmark ohne Fine-Tuning – fast so gut wie die klassische ECOD-Baseline mit 75,5 – scheitert jedoch bei mehrdimensionalen Anomalien und Datensätzen mit hoher Varianz; eine kritische Analyse der Zero-Shot-LLM-Anomalieerkennung und deren Bedeutung für die automatisierte Prüfung von Beancount-Journalen.

llm

fraud-detection

June 20, 2026·mike

DocFinQA: Langkontextuelles finanzielles Schlussfolgern auf vollständigen SEC-Filings

DocFinQA ersetzt die kuratierten 700-Wörter-Passagen von FinQA durch vollständige SEC-Filings mit 123.000 Wörtern und setzt Modelle einer 175-fachen Kontextvergrößerung aus, was die Genauigkeit von GPT-4 bei langen Dokumenten fast halbiert. Retrieval-Pipelines finden das richtige Segment in 45 % der Fälle bei HR@3 nicht – und Langkontext-Modelle sind kein Ersatz.

llm

machine-learning

June 19, 2026·mike

TheAgentCompany: Benchmarking von LLM-Agenten bei realen Unternehmensaufgaben

TheAgentCompany testet 175 reale Arbeitsaufgaben in einem simulierten Intranet mit GitLab, OwnCloud und RocketChat. Das beste Modell (Gemini-2.5-Pro) schließt nur 30 % der Aufgaben zu Kosten von jeweils 4 $ ab, was zeigt, dass autonome Agenten noch weit von der Einsatzreife für Buchhaltungs- und Finanz-Workflows entfernt sind.

llm

automation

Zeige 13–24 von 87 Beiträgen

Zurück2 / 8Weiter