Mike Thrift
Marketing Manager
PHANTOM (NeurIPS 2025): Messung der LLM-Halluzinationserkennung in Finanzdokumenten
PHANTOM (NeurIPS 2025) ist der erste Benchmark zur Messung der LLM-Halluzinationserkennung bei echten SEC-Einreichungen über Kontextlängen von bis zu 30.000 Token. Qwen3-30B-A3B-Thinking führt mit F1=0,882; 7B-Modelle schneiden fast wie Zufallsraten ab – mit direkten Auswirkungen für autonome Buchhaltungs-Agenten.
FinMaster-Benchmark: Warum LLMs 96 % bei Finanzkompetenz, aber nur 3 % bei der Erstellung von Abschlüssen erreichen
FinMaster (arXiv:2505.13533) bewertet o3-mini, Claude 3.7 Sonnet und DeepSeek-V3 in 183 Finanzaufgaben – und zeigt, dass Modelle 96 % bei Finanzkompetenz erreichen, aber bei der Erstellung von Abschlüssen auf 3 % einbrechen, wobei mehrstufige Beratungsaufgaben durch Fehlerfortpflanzung 21 Genauigkeitspunkte verlieren.
ReAct: Synergie von Schlussfolgerung und Handeln in Sprachmodellen
ReAct (Yao et al., ICLR 2023) verschränkt Chain-of-Thought-Schlussfolgerungen mit Werkzeugaktionen in einer einzigen Trajektorie und übertrifft reines CoT bei der Faktenprüfung sowie Imitationslernen bei verkörperten Aufgaben um 34 Prozentpunkte. Diese Analyse behandelt die Fehlermodi des Papers – suchinduzierte Ablenkung und Fehlermultiplikation – und deren Bedeutung für autonome Agenten, die in Beancount-Ledger schreiben.