33 Posts getaggt mit „Plain-Text Accounting“

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte

ReDAct führt standardmäßig ein kleines Modell aus und eskaliert nur dann zu einem teuren Modell, wenn die Perplexität auf Token-Ebene Unsicherheit signalisiert. Dabei werden 64 % Kosten gegenüber einer reinen GPT-5.2-Nutzung eingespart, bei gleichbleibender oder höherer Genauigkeit – ein direkt anwendbares Muster für Beancount-Transaktionskategorisierungs-Agenten.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet

OpenHands ist eine MIT-lizenzierte, Docker-sandboxed Agenten-Plattform, bei der CodeAct 26 % auf SWE-Bench Lite erreicht – ein ernüchternder Benchmark, der festlegt, was KI-Agenten heute zuverlässig leisten können und warum die ersten produktiven Finanzeinsätze eng gefasst und nicht autonom sein sollten.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLMs erreichen 2,3 % bei der Beancount DSL-Generierung: Der LLMFinLiteracy-Benchmark

Der LLMFinLiteracy-Benchmark zeigt, dass fünf Open-Weight-Modelle der ~7B-Klasse nur in 2,3 % der Fälle vollständig korrekte Beancount-Transaktionen generieren. Fehler konzentrieren sich auf buchhalterische Logik statt Syntax, was Compiler-Feedback als entscheidendes Element für zuverlässige Write-Back-Agenten hervorhebt.

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: Adaptives Denken für das Tabellenverständnis mit LLMs

TableMaster ist eine reine Prompting-Pipeline, die mit GPT-4o-mini 78,13 % auf WikiTQ erreicht – 13 Prozentpunkte mehr als Chain-of-Table – durch die Kombination von Table-of-Focus-Extraktion, semantischer Verbalisierung und adaptivem Wechsel zwischen textuellem und symbolischem Denken. Erfahren Sie hier, was diese Architektur für KI-Agenten über Finanz-Hauptbüchern wie Beancount bedeutet.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: Messung der Kosten von Dual-Control in konversationellen KI-Agenten

τ²-bench erweitert das Agenten-Benchmarking auf Dual-Control-Umgebungen, in denen sowohl die KI als auch der Benutzer Tools über einen gemeinsamen Zustand aufrufen – mit dem Ergebnis, dass aktive Benutzer die Erfolgsraten um 18–25 Prozentpunkte senken, was direkte Auswirkungen auf Beancount-Agenten hat, die sich den Schreibzugriff mit menschlichen Benutzern teilen.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

GAIA Benchmark: Messen, was modernste KI-Agenten wirklich leisten können

GAIA bewertet 466 reale Aufgaben in drei Schwierigkeitsstufen; modernste Agenten erreichten Mitte 2026 74,55 % gegenüber 92 % bei Menschen, und die verbleibende Lücke in Level 3 lässt sich direkt auf die Herausforderungen der mehrstufigen Koordination in automatisierten Beancount-Ledger-Workflows übertragen.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Wie LLM-Web-Agenten bei realer Wissensarbeit in Unternehmen abschneiden

WorkArena evaluiert LLM-Web-Agenten anhand von 33 realen ServiceNow-Aufgaben — GPT-4o erreicht insgesamt 42,7 %, aber 0 % bei Listenfilter-Aufgaben. Dies offenbart eine harte Grenze zwischen dem Ausfüllen von Formularen und strukturierter UI-Interaktion, was sich direkt auf die Herausforderungen bei der Automatisierung von Beancount-Ledgern übertragen lässt.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: Messung der Zuverlässigkeit von KI-Agenten in praxisnahen Tool-Nutzungs-Domänen

τ-bench zeigt, dass Top-LLMs wie Claude 3.5 Sonnet in Retail-Kundendienst-Aufgaben von pass@1 (0,692) auf pass@4 (0,462) abfallen – eine Konsistenzklippe mit direkten Folgen für jeden Write-Back-Agenten, der auf einem Beancount-Hauptbuch operiert.

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: Evolution von Tabellen in der LLM-Schlussfolgerungskette

Chain-of-Table (ICLR 2024) verbessert das tabellarische Schlussfolgern von LLMs, indem die Tabelle selbst als Zwischenzustand weiterentwickelt wird. Es erreicht 67,31 % bei WikiTQ gegenüber 61,48 % bei früheren Baselines, mit einem Vorsprung von +10,25 Punkten bei Tabellen über 4.000 Token und direkter Anwendbarkeit auf Beancount-Ledger-Abfrage-Agenten.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Kann ein offenes 7B-Modell mit GPT-4 beim Tabellenverständnis mithalten?

TableLlama unterzieht Llama 2 (7B) einem Fine-Tuning mit 2,6 Millionen Tabellen-Aufgabenbeispielen und schlägt GPT-4 bei strukturellen Aufgaben wie der Spaltentyp-Annotation (F1 94 vs. 32), bleibt jedoch 33 Punkte hinter dem kompositionellen Denken von WikiTQ zurück – ein kalibrierter Benchmark dafür, was offene 7B-Modelle heute in der Finanz-KI leisten können und was nicht.

Alles Über Plain-Text Accounting

Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte

OpenHands: Offene Plattform für KI-Softwareagenten und was sie für die Finanzautomatisierung bedeutet

LLMs erreichen 2,3 % bei der Beancount DSL-Generierung: Der LLMFinLiteracy-Benchmark

TableMaster: Adaptives Denken für das Tabellenverständnis mit LLMs

τ²-bench: Messung der Kosten von Dual-Control in konversationellen KI-Agenten

GAIA Benchmark: Messen, was modernste KI-Agenten wirklich leisten können

WorkArena: Wie LLM-Web-Agenten bei realer Wissensarbeit in Unternehmen abschneiden

τ-bench: Messung der Zuverlässigkeit von KI-Agenten in praxisnahen Tool-Nutzungs-Domänen

Chain-of-Table: Evolution von Tabellen in der LLM-Schlussfolgerungskette

TableLlama: Kann ein offenes 7B-Modell mit GPT-4 beim Tabellenverständnis mithalten?

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches