Mike Thrift

Marketing Manager

April 19, 2026·mike

PHANTOM (NeurIPS 2025): Messung der LLM-Halluzinationserkennung in Finanzdokumenten

PHANTOM (NeurIPS 2025) ist der erste Benchmark zur Messung der LLM-Halluzinationserkennung bei echten SEC-Einreichungen über Kontextlängen von bis zu 30.000 Token. Qwen3-30B-A3B-Thinking führt mit F1=0,882; 7B-Modelle schneiden fast wie Zufallsraten ab – mit direkten Auswirkungen für autonome Buchhaltungs-Agenten.

llm

machine-learning

April 18, 2026·mike

FinMaster-Benchmark: Warum LLMs 96 % bei Finanzkompetenz, aber nur 3 % bei der Erstellung von Abschlüssen erreichen

FinMaster (arXiv:2505.13533) bewertet o3-mini, Claude 3.7 Sonnet und DeepSeek-V3 in 183 Finanzaufgaben – und zeigt, dass Modelle 96 % bei Finanzkompetenz erreichen, aber bei der Erstellung von Abschlüssen auf 3 % einbrechen, wobei mehrstufige Beratungsaufgaben durch Fehlerfortpflanzung 21 Genauigkeitspunkte verlieren.

llm

accounting

April 17, 2026·mike

ReAct: Synergie von Schlussfolgerung und Handeln in Sprachmodellen

ReAct (Yao et al., ICLR 2023) verschränkt Chain-of-Thought-Schlussfolgerungen mit Werkzeugaktionen in einer einzigen Trajektorie und übertrifft reines CoT bei der Faktenprüfung sowie Imitationslernen bei verkörperten Aufgaben um 34 Prozentpunkte. Diese Analyse behandelt die Fehlermodi des Papers – suchinduzierte Ablenkung und Fehlermultiplikation – und deren Bedeutung für autonome Agenten, die in Beancount-Ledger schreiben.

llm

machine-learning

Zeige 85–87 von 87 Beiträgen

Zurück8 / 8