Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Alle Autoren anzeigen

OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet
·mike

OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet

OpenHands ist eine MIT-lizenzierte, Docker-sandboxed Agenten-Plattform, bei der CodeAct 26 % auf SWE-Bench Lite erreicht – ein ernüchternder Benchmark, der festlegt, was KI-Agenten heute zuverlässig leisten können und warum die ersten produktiven Finanzeinsätze eng gefasst und nicht autonom sein sollten.

ai
open-source
automation
llm
+4
Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern
·mike

Fin-RATE: Wie LLMs bei periodenübergreifenden und unternehmensübergreifenden Finanzanalysen scheitern

Fin-RATE benchmarkt 17 LLMs anhand von 7.500 Experten-kuratierten QA-Paaren aus 2.472 SEC-Filings und deckt dabei einen Genauigkeitseinbruch von 18,60 % bei der longitudinalen Verfolgung sowie einen Rückgang um 54 Punkte für das spezialisierte Fin-R1 bei unternehmensübergreifenden Aufgaben auf – wobei die Retrieval-Pipeline und nicht das Basismodell den entscheidenden Engpass darstellt.

llm
ai
machine-learning
analytics
+3
FinDER: Reale Analystenanfragen decken eine Recall-Lücke von 74 % bei Finanz-RAG auf
·mike

FinDER: Reale Analystenanfragen decken eine Recall-Lücke von 74 % bei Finanz-RAG auf

FinDER bewertet RAG anhand von 5.703 realen Anfragen von Hedgefonds-Analysten zu S&P 500 10-K-Berichten; E5-Mistral erreicht nur 25,95 % Kontext-Recall, und abkürzungsintensive Anfragen kosten 8,2 Präzisionspunkte – ein Beleg dafür, dass die Abfragenormalisierung und nicht bessere Embeddings die erste Lösung für Finanz-KI-Pipelines ist.

ai
llm
machine-learning
finance
+3
Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI
·mike

Lost in the Middle: Position Bias in LLMs und seine Auswirkungen auf Finance AI

Das TACL-2024-Paper von Liu et al. zeigt, dass LLMs bei Informationen, die in der Mitte langer Kontexte verborgen sind, bis zu 20 Punkte schlechter abschneiden – eine U-förmige Verschlechterung, die jedes getestete Modell einschließlich Claude-1.3-100K betrifft – mit konkreten Auswirkungen darauf, wie RAG-Pipelines abgerufene Passagen in Finanz- und Buchhaltungsanwendungen anordnen sollten.

llm
ai
machine-learning
data-science
+3
AD-LLM-Benchmark: GPT-4o erreicht 0,93+ AUROC Zero-Shot bei der Text-Anomalieerkennung
·mike

AD-LLM-Benchmark: GPT-4o erreicht 0,93+ AUROC Zero-Shot bei der Text-Anomalieerkennung

AD-LLM testet GPT-4o und Llama 3.1 8B in drei Rollen der Anomalieerkennung – Zero-Shot-Detektor, Daten-Augmentierer und Modell-Selektor – auf fünf NLP-Datensätzen; GPT-4o erreicht AUROC 0,93–0,99 Zero-Shot, doch die LLM-basierte Modellauswahl bleibt unzuverlässig, mit direkten Auswirkungen auf KI in der Finanzprüfung.

llm
ai
machine-learning
data-science
+3
CausalTAD: Kausale Spaltenordnung für die Tabellen-Anomalieerkennung mit LLMs
·mike

CausalTAD: Kausale Spaltenordnung für die Tabellen-Anomalieerkennung mit LLMs

CausalTAD verbessert die LLM-basierte Tabellen-Anomalieerkennung durch die Neuanordnung von Tabellenspalten gemäß kausalen Abhängigkeiten vor der Serialisierung. Dies steigert den durchschnittlichen AUC-ROC von 0,803 auf 0,834 gegenüber AnoLLM bei Benchmarks mit gemischten Datentypen — mit direkten Auswirkungen auf die Erkennung von Anomalien in strukturierten Buchhaltungsdaten.

llm
ai
machine-learning
fraud-detection
+3
AnoLLM: Fine-Tuning von LLMs zur tabellarischen Anomalieerkennung in Finanzdaten
·mike

AnoLLM: Fine-Tuning von LLMs zur tabellarischen Anomalieerkennung in Finanzdaten

AnoLLM (ICLR 2025) formuliert die tabellarische Anomalieerkennung als LLM-Dichteschätzung neu – durch Feintuning auf normalen Zeilen und Bewertung mittels negativer Log-Likelihood. Es übertrifft klassische Methoden bei gemischten Betrugsdatensätzen, bietet jedoch keinen Vorteil bei rein numerischen Daten, was konkrete Auswirkungen auf die Erkennung von Anomalien in Beancount-Journalen hat.

ai
llm
machine-learning
fraud-detection
+3
LLMs erreichen 2,3 % bei der Beancount DSL-Generierung: Der LLMFinLiteracy-Benchmark
·mike

LLMs erreichen 2,3 % bei der Beancount DSL-Generierung: Der LLMFinLiteracy-Benchmark

Der LLMFinLiteracy-Benchmark zeigt, dass fünf Open-Weight-Modelle der ~7B-Klasse nur in 2,3 % der Fälle vollständig korrekte Beancount-Transaktionen generieren. Fehler konzentrieren sich auf buchhalterische Logik statt Syntax, was Compiler-Feedback als entscheidendes Element für zuverlässige Write-Back-Agenten hervorhebt.

llm
beancount
plain-text-accounting
ai
+4
TableMaster: Adaptives Denken für das Tabellenverständnis mit LLMs
·mike

TableMaster: Adaptives Denken für das Tabellenverständnis mit LLMs

TableMaster ist eine reine Prompting-Pipeline, die mit GPT-4o-mini 78,13 % auf WikiTQ erreicht – 13 Prozentpunkte mehr als Chain-of-Table – durch die Kombination von Table-of-Focus-Extraktion, semantischer Verbalisierung und adaptivem Wechsel zwischen textuellem und symbolischem Denken. Erfahren Sie hier, was diese Architektur für KI-Agenten über Finanz-Hauptbüchern wie Beancount bedeutet.

ai
llm
machine-learning
beancount
+4
Zero-Shot-Anomalieerkennung mit LLMs: Wie GPT-4 bei tabellarischen Daten abschneidet
·mike

Zero-Shot-Anomalieerkennung mit LLMs: Wie GPT-4 bei tabellarischen Daten abschneidet

GPT-4 erreicht einen durchschnittlichen AUROC von 74,1 im ODDS-Benchmark ohne Fine-Tuning – fast so gut wie die klassische ECOD-Baseline mit 75,5 – scheitert jedoch bei mehrdimensionalen Anomalien und Datensätzen mit hoher Varianz; eine kritische Analyse der Zero-Shot-LLM-Anomalieerkennung und deren Bedeutung für die automatisierte Prüfung von Beancount-Journalen.

ai
llm
fraud-detection
machine-learning
+3
DocFinQA: Langkontextuelles finanzielles Schlussfolgern auf vollständigen SEC-Filings
·mike

DocFinQA: Langkontextuelles finanzielles Schlussfolgern auf vollständigen SEC-Filings

DocFinQA ersetzt die kuratierten 700-Wörter-Passagen von FinQA durch vollständige SEC-Filings mit 123.000 Wörtern und setzt Modelle einer 175-fachen Kontextvergrößerung aus, was die Genauigkeit von GPT-4 bei langen Dokumenten fast halbiert. Retrieval-Pipelines finden das richtige Segment in 45 % der Fälle bei HR@3 nicht – und Langkontext-Modelle sind kein Ersatz.

ai
llm
machine-learning
finance
+3
TheAgentCompany: Benchmarking von LLM-Agenten bei realen Unternehmensaufgaben
·mike

TheAgentCompany: Benchmarking von LLM-Agenten bei realen Unternehmensaufgaben

TheAgentCompany testet 175 reale Arbeitsaufgaben in einem simulierten Intranet mit GitLab, OwnCloud und RocketChat. Das beste Modell (Gemini-2.5-Pro) schließt nur 30 % der Aufgaben zu Kosten von jeweils 4 $ ab, was zeigt, dass autonome Agenten noch weit von der Einsatzreife für Buchhaltungs- und Finanz-Workflows entfernt sind.

ai
llm
automation
machine-learning
+3
Zeige 13–24 von 87 Beiträgen