Bean Labs Research Log

AILLMBeancountData SciencePlain-Text AccountingAutomationFinance

Können LLMs über tabellarische Daten schlussfolgern? Was vier Benchmarks über Finanz-KI verraten

Vier Benchmarks aus den Jahren 2024–2025 zeigen, dass GPT-4 bei realen Tabellen-Frage-Antwort-Systemen 42 % erreicht, während Menschen auf 86 % kommen. Komplexe Aggregationen brechen auf 19,6 % ein – und die native Syntax von Beancount befindet sich am leistungsschwächsten Ende der Serialisierungshierarchie für LLM-Inputs.

AIMachine LearningLLMAutomationComplianceAccountingBeancount

Konstitutionelle KI für Buchhaltungs-Agenten: RLAIF, Richtlinienregeln und Goodharting-Risiken

Anthropics Paper zu Constitutional AI (Bai et al., 2022) trainiert LLMs darauf, Regeln mittels KI-generiertem Feedback statt menschlicher Schadens-Labels zu folgen. Dieses Forschungsprotokoll untersucht, wie die RLAIF-Pipeline aus Kritik, Überarbeitung und Präferenz auf die Rückschreibesicherheit für autonome Beancount-Hauptbuch-Agenten übertragbar ist – und wie Goodharting, Kalibrierungsfehler und Dual-Use-Risiken aussehen, wenn die „Verfassung“ ein Kontenplan anstelle eines Ethik-Regelwerks ist.

AILLMMachine LearningData ScienceFinanceAutomationFraud Detection

Chain-of-Thought-Prompting: Precision-Recall-Abwägungen für Finanz-KI

Eine genaue Lektüre des Chain-of-Thought-Papers von Wei et al. aus dem Jahr 2022 und dessen Bedeutung für Finanz-KI – warum CoT die Präzision erhöht, aber den Recall bei der Erkennung seltener Ereignisse verringern kann, warum die Skalierungsschwelle für Produktionsagenten wichtig ist und worauf Finanzteams achten sollten, die auf LLMs aufbauen.

LLMAIMachine LearningFinanceFinancial ReportingTrustBeancountData Science

PHANTOM (NeurIPS 2025): Messung der LLM-Halluzinationserkennung in Finanzdokumenten

PHANTOM (NeurIPS 2025) ist der erste Benchmark zur Messung der LLM-Halluzinationserkennung bei echten SEC-Einreichungen über Kontextlängen von bis zu 30.000 Token. Qwen3-30B-A3B-Thinking führt mit F1=0,882; 7B-Modelle schneiden fast wie Zufallsraten ab – mit direkten Auswirkungen für autonome Buchhaltungs-Agenten.

LLMAccountingAIFinancial StatementsFinancial LiteracyMachine LearningAutomation

FinMaster-Benchmark: Warum LLMs 96 % bei Finanzkompetenz, aber nur 3 % bei der Erstellung von Abschlüssen erreichen

FinMaster (arXiv:2505.13533) bewertet o3-mini, Claude 3.7 Sonnet und DeepSeek-V3 in 183 Finanzaufgaben – und zeigt, dass Modelle 96 % bei Finanzkompetenz erreichen, aber bei der Erstellung von Abschlüssen auf 3 % einbrechen, wobei mehrstufige Beratungsaufgaben durch Fehlerfortpflanzung 21 Genauigkeitspunkte verlieren.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Synergie von Schlussfolgerung und Handeln in Sprachmodellen

ReAct (Yao et al., ICLR 2023) verschränkt Chain-of-Thought-Schlussfolgerungen mit Werkzeugaktionen in einer einzigen Trajektorie und übertrifft reines CoT bei der Faktenprüfung sowie Imitationslernen bei verkörperten Aufgaben um 34 Prozentpunkte. Diese Analyse behandelt die Fehlermodi des Papers – suchinduzierte Ablenkung und Fehlermultiplikation – und deren Bedeutung für autonome Agenten, die in Beancount-Ledger schreiben.

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer: Selbstüberwachte Werkzeugnutzung und ihre Grenzen für Finanz-KI

Eine genaue Analyse von Toolformer (Meta AI, NeurIPS 2023): Wie perplexitätsgefiltertes, selbstüberwachtes Training einem Modell mit 6,7 Milliarden Parametern beibringt, externe APIs aufzurufen, wobei es GPT-3 mit 175 Milliarden Parametern bei Arithmetik-Benchmarks übertrifft, und warum seine einstufige Architektur die für strukturierte Ledger-Operationen erforderlichen verketteten Werkzeugaufrufe nicht unterstützen kann.

AILLMMachine LearningFinanceForecastingData ScienceBeancount

FinBen: Benchmarking von LLMs über 36 Finanzaufgaben hinweg – Implikationen für Buchhaltungs-KI

FinBen evaluiert 15 LLMs über 36 Finanzdatensätze hinweg auf der NeurIPS 2024 und stellt fest, dass GPT-4 bei numerischen Fragen (QA) einen Exact Match von 0,63 und bei der Vorhersage von Kursbewegungen 0,54 erreicht – fast Zufallsniveau. Hier erfahren Sie, was diese Zahlen für den Aufbau eines zuverlässigen Buchhaltungs-Agenten auf einem Beancount-Ledger bedeuten.

PAL: Programm-gestützte Sprachmodelle für zuverlässige Finanzarithmetik

Latest articles

Können LLMs über tabellarische Daten schlussfolgern? Was vier Benchmarks über Finanz-KI verraten

Konstitutionelle KI für Buchhaltungs-Agenten: RLAIF, Richtlinienregeln und Goodharting-Risiken

Chain-of-Thought-Prompting: Precision-Recall-Abwägungen für Finanz-KI

PHANTOM (NeurIPS 2025): Messung der LLM-Halluzinationserkennung in Finanzdokumenten

FinMaster-Benchmark: Warum LLMs 96 % bei Finanzkompetenz, aber nur 3 % bei der Erstellung von Abschlüssen erreichen

ReAct: Synergie von Schlussfolgerung und Handeln in Sprachmodellen

Toolformer: Selbstüberwachte Werkzeugnutzung und ihre Grenzen für Finanz-KI

FinBen: Benchmarking von LLMs über 36 Finanzaufgaben hinweg – Implikationen für Buchhaltungs-KI

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches