Zum Hauptinhalt springen
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Alle Autoren anzeigen

PHANTOM (NeurIPS 2025): Messung der LLM-Halluzinationserkennung in Finanzdokumenten
·mike

PHANTOM (NeurIPS 2025): Messung der LLM-Halluzinationserkennung in Finanzdokumenten

PHANTOM (NeurIPS 2025) ist der erste Benchmark zur Messung der LLM-Halluzinationserkennung bei echten SEC-Einreichungen über Kontextlängen von bis zu 30.000 Token. Qwen3-30B-A3B-Thinking führt mit F1=0,882; 7B-Modelle schneiden fast wie Zufallsraten ab – mit direkten Auswirkungen für autonome Buchhaltungs-Agenten.

llm
ai
machine-learning
finance
+4
FinMaster-Benchmark: Warum LLMs 96 % bei Finanzkompetenz, aber nur 3 % bei der Erstellung von Abschlüssen erreichen
·mike

FinMaster-Benchmark: Warum LLMs 96 % bei Finanzkompetenz, aber nur 3 % bei der Erstellung von Abschlüssen erreichen

FinMaster (arXiv:2505.13533) bewertet o3-mini, Claude 3.7 Sonnet und DeepSeek-V3 in 183 Finanzaufgaben – und zeigt, dass Modelle 96 % bei Finanzkompetenz erreichen, aber bei der Erstellung von Abschlüssen auf 3 % einbrechen, wobei mehrstufige Beratungsaufgaben durch Fehlerfortpflanzung 21 Genauigkeitspunkte verlieren.

llm
accounting
ai
financial-statements
+3
ReAct: Synergie von Schlussfolgerung und Handeln in Sprachmodellen
·mike

ReAct: Synergie von Schlussfolgerung und Handeln in Sprachmodellen

ReAct (Yao et al., ICLR 2023) verschränkt Chain-of-Thought-Schlussfolgerungen mit Werkzeugaktionen in einer einzigen Trajektorie und übertrifft reines CoT bei der Faktenprüfung sowie Imitationslernen bei verkörperten Aufgaben um 34 Prozentpunkte. Diese Analyse behandelt die Fehlermodi des Papers – suchinduzierte Ablenkung und Fehlermultiplikation – und deren Bedeutung für autonome Agenten, die in Beancount-Ledger schreiben.

ai
llm
machine-learning
automation
+3
Zeige 85–87 von 87 Beiträgen
Zurück8 / 8