Bean Labs Research Log

AILLMMachine LearningBeancountAutomationData ScienceQueriesPlain-Text Accounting

TableMaster: Adaptives Denken für das Tabellenverständnis mit LLMs

TableMaster ist eine reine Prompting-Pipeline, die mit GPT-4o-mini 78,13 % auf WikiTQ erreicht – 13 Prozentpunkte mehr als Chain-of-Table – durch die Kombination von Table-of-Focus-Extraktion, semantischer Verbalisierung und adaptivem Wechsel zwischen textuellem und symbolischem Denken. Erfahren Sie hier, was diese Architektur für KI-Agenten über Finanz-Hauptbüchern wie Beancount bedeutet.

Latest articles

AILLMFraud DetectionMachine LearningData ScienceBeancountAutomation

Zero-Shot-Anomalieerkennung mit LLMs: Wie GPT-4 bei tabellarischen Daten abschneidet

GPT-4 erreicht einen durchschnittlichen AUROC von 74,1 im ODDS-Benchmark ohne Fine-Tuning – fast so gut wie die klassische ECOD-Baseline mit 75,5 – scheitert jedoch bei mehrdimensionalen Anomalien und Datensätzen mit hoher Varianz; eine kritische Analyse der Zero-Shot-LLM-Anomalieerkennung und deren Bedeutung für die automatisierte Prüfung von Beancount-Journalen.

AILLMMachine LearningFinanceFinancial ReportingData ScienceBeancount

DocFinQA: Langkontextuelles finanzielles Schlussfolgern auf vollständigen SEC-Filings

DocFinQA ersetzt die kuratierten 700-Wörter-Passagen von FinQA durch vollständige SEC-Filings mit 123.000 Wörtern und setzt Modelle einer 175-fachen Kontextvergrößerung aus, was die Genauigkeit von GPT-4 bei langen Dokumenten fast halbiert. Retrieval-Pipelines finden das richtige Segment in 45 % der Fälle bei HR@3 nicht – und Langkontext-Modelle sind kein Ersatz.

AILLMAutomationMachine LearningFinanceEnterprise SoftwareProductivity

TheAgentCompany: Benchmarking von LLM-Agenten bei realen Unternehmensaufgaben

TheAgentCompany testet 175 reale Arbeitsaufgaben in einem simulierten Intranet mit GitLab, OwnCloud und RocketChat. Das beste Modell (Gemini-2.5-Pro) schließt nur 30 % der Aufgaben zu Kosten von jeweils 4 $ ab, was zeigt, dass autonome Agenten noch weit von der Einsatzreife für Buchhaltungs- und Finanz-Workflows entfernt sind.

AILLMAutomationBeancountPlain-Text AccountingMachine Learning

τ²-bench: Messung der Kosten von Dual-Control in konversationellen KI-Agenten

τ²-bench erweitert das Agenten-Benchmarking auf Dual-Control-Umgebungen, in denen sowohl die KI als auch der Benutzer Tools über einen gemeinsamen Zustand aufrufen – mit dem Ergebnis, dass aktive Benutzer die Erfolgsraten um 18–25 Prozentpunkte senken, was direkte Auswirkungen auf Beancount-Agenten hat, die sich den Schreibzugriff mit menschlichen Benutzern teilen.

AILLMAutomationEnterprise SoftwareMachine LearningProductivity

WorkArena++: Die 93%-Lücke zwischen menschlicher Leistung und der von KI-Agenten bei kompositorischen Unternehmensaufgaben

WorkArena++ (NeurIPS 2024) bewertet 682 kompositorische Unternehmensaufgaben auf drei Schwierigkeitsstufen. Während Menschen 93,9 % davon lösen, schafft GPT-4o nur 2,1 %. Dies verdeutlicht, warum aktuelle KI-Agenten bei Wissensarbeit mit impliziten Zielen scheitern und welche Bedeutung diese Lücke für die autonome Buchhaltungsautomatisierung hat.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingData Science

GAIA Benchmark: Messen, was modernste KI-Agenten wirklich leisten können

GAIA bewertet 466 reale Aufgaben in drei Schwierigkeitsstufen; modernste Agenten erreichten Mitte 2026 74,55 % gegenüber 92 % bei Menschen, und die verbleibende Lücke in Level 3 lässt sich direkt auf die Herausforderungen der mehrstufigen Koordination in automatisierten Beancount-Ledger-Workflows übertragen.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Desktop AI-Agenten bewältigen 12 % der Aufgaben, während Menschen 72 % lösen

OSWorld (NeurIPS 2024) testet multimodale KI-Agenten bei 369 realen Desktop-Aufgaben unter Ubuntu, Windows und macOS – und stellt eine Lücke von 60 Prozentpunkten zwischen dem besten Modell (12,24 %) und menschlicher Leistung (72,36 %) fest, wobei 75 % der Fehler auf visuomotorische Erdungsfehler statt auf logische Fehlleistungen zurückzuführen sind.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: Der Benchmark mit 812 Aufgaben, der misst, was Web-Agenten tatsächlich können und was nicht

GPT-4 schließt nur 14,41 % der 812 realistischen Web-Aufgaben von WebArena ab, während Menschen 78,24 % erreichen; der dominierende Fehlermodus ist die falsche Undurchführbarkeit – eine konservative Weigerung zu handeln – mit direkten Auswirkungen auf jeden Agenten, der Fava oder Finanz-Web-UIs bedient.

AILLMAutomationEnterprise SoftwareMachine LearningBeancountPlain-Text Accounting

WorkArena: Wie LLM-Web-Agenten bei realer Wissensarbeit in Unternehmen abschneiden

WorkArena evaluiert LLM-Web-Agenten anhand von 33 realen ServiceNow-Aufgaben — GPT-4o erreicht insgesamt 42,7 %, aber 0 % bei Listenfilter-Aufgaben. Dies offenbart eine harte Grenze zwischen dem Ausfüllen von Formularen und strukturierter UI-Interaktion, was sich direkt auf die Herausforderungen bei der Automatisierung von Beancount-Ledgern übertragen lässt.

Erste Schritte mit Beancount.io

Übernehmen Sie die Kontrolle über Ihre Finanzen mit unserem Open-Source-System für die doppelte Buchführung. Starten Sie noch heute Ihr Ledger.

Kostenlos loslegen Preise ansehen

Gebaut mit Transparenz • Versionskontrolliert • KI-gestützt