Mike Thrift

Marketing Manager

June 18, 2026·mike

τ²-bench: Messung der Kosten von Dual-Control in konversationellen KI-Agenten

τ²-bench erweitert das Agenten-Benchmarking auf Dual-Control-Umgebungen, in denen sowohl die KI als auch der Benutzer Tools über einen gemeinsamen Zustand aufrufen – mit dem Ergebnis, dass aktive Benutzer die Erfolgsraten um 18–25 Prozentpunkte senken, was direkte Auswirkungen auf Beancount-Agenten hat, die sich den Schreibzugriff mit menschlichen Benutzern teilen.

llm

automation

June 17, 2026·mike

WorkArena++: Die 93%-Lücke zwischen menschlicher Leistung und der von KI-Agenten bei kompositorischen Unternehmensaufgaben

WorkArena++ (NeurIPS 2024) bewertet 682 kompositorische Unternehmensaufgaben auf drei Schwierigkeitsstufen. Während Menschen 93,9 % davon lösen, schafft GPT-4o nur 2,1 %. Dies verdeutlicht, warum aktuelle KI-Agenten bei Wissensarbeit mit impliziten Zielen scheitern und welche Bedeutung diese Lücke für die autonome Buchhaltungsautomatisierung hat.

llm

automation

June 16, 2026·mike

GAIA Benchmark: Messen, was modernste KI-Agenten wirklich leisten können

GAIA bewertet 466 reale Aufgaben in drei Schwierigkeitsstufen; modernste Agenten erreichten Mitte 2026 74,55 % gegenüber 92 % bei Menschen, und die verbleibende Lücke in Level 3 lässt sich direkt auf die Herausforderungen der mehrstufigen Koordination in automatisierten Beancount-Ledger-Workflows übertragen.

llm

machine-learning

June 15, 2026·mike

OSWorld: Desktop AI-Agenten bewältigen 12 % der Aufgaben, während Menschen 72 % lösen

OSWorld (NeurIPS 2024) testet multimodale KI-Agenten bei 369 realen Desktop-Aufgaben unter Ubuntu, Windows und macOS – und stellt eine Lücke von 60 Prozentpunkten zwischen dem besten Modell (12,24 %) und menschlicher Leistung (72,36 %) fest, wobei 75 % der Fehler auf visuomotorische Erdungsfehler statt auf logische Fehlleistungen zurückzuführen sind.

machine-learning

automation

June 14, 2026·mike

WebArena: Der Benchmark mit 812 Aufgaben, der misst, was Web-Agenten tatsächlich können und was nicht

GPT-4 schließt nur 14,41 % der 812 realistischen Web-Aufgaben von WebArena ab, während Menschen 78,24 % erreichen; der dominierende Fehlermodus ist die falsche Undurchführbarkeit – eine konservative Weigerung zu handeln – mit direkten Auswirkungen auf jeden Agenten, der Fava oder Finanz-Web-UIs bedient.

llm

automation

June 13, 2026·mike

WorkArena: Wie LLM-Web-Agenten bei realer Wissensarbeit in Unternehmen abschneiden

WorkArena evaluiert LLM-Web-Agenten anhand von 33 realen ServiceNow-Aufgaben — GPT-4o erreicht insgesamt 42,7 %, aber 0 % bei Listenfilter-Aufgaben. Dies offenbart eine harte Grenze zwischen dem Ausfüllen von Formularen und strukturierter UI-Interaktion, was sich direkt auf die Herausforderungen bei der Automatisierung von Beancount-Ledgern übertragen lässt.

llm

automation

June 12, 2026·mike

τ-bench: Messung der Zuverlässigkeit von KI-Agenten in praxisnahen Tool-Nutzungs-Domänen

τ-bench zeigt, dass Top-LLMs wie Claude 3.5 Sonnet in Retail-Kundendienst-Aufgaben von pass@1 (0,692) auf pass@4 (0,462) abfallen – eine Konsistenzklippe mit direkten Folgen für jeden Write-Back-Agenten, der auf einem Beancount-Hauptbuch operiert.

llm

machine-learning

June 11, 2026·mike

Chain-of-Table: Evolution von Tabellen in der LLM-Schlussfolgerungskette

Chain-of-Table (ICLR 2024) verbessert das tabellarische Schlussfolgern von LLMs, indem die Tabelle selbst als Zwischenzustand weiterentwickelt wird. Es erreicht 67,31 % bei WikiTQ gegenüber 61,48 % bei früheren Baselines, mit einem Vorsprung von +10,25 Punkten bei Tabellen über 4.000 Token und direkter Anwendbarkeit auf Beancount-Ledger-Abfrage-Agenten.

llm

machine-learning

June 10, 2026·mike

TableLlama: Kann ein offenes 7B-Modell mit GPT-4 beim Tabellenverständnis mithalten?

TableLlama unterzieht Llama 2 (7B) einem Fine-Tuning mit 2,6 Millionen Tabellen-Aufgabenbeispielen und schlägt GPT-4 bei strukturellen Aufgaben wie der Spaltentyp-Annotation (F1 94 vs. 32), bleibt jedoch 33 Punkte hinter dem kompositionellen Denken von WikiTQ zurück – ein kalibrierter Benchmark dafür, was offene 7B-Modelle heute in der Finanz-KI leisten können und was nicht.

llm

machine-learning

June 9, 2026·mike

TAPAS: Schwach überwachtes Table-QA ohne SQL und was es für Beancount bedeutet

TAPAS (Google Research, ACL 2020) beantwortet Tabellenfragen durch die Auswahl von Zellen und die Anwendung skalarer Aggregationen – ohne SQL-Generierung. Dieser Beitrag analysiert die Architektur, den SQA-Genauigkeitsgewinn von 12 Punkten und warum das Zellenauswahl-Paradigma für kleine Beancount-Ledger-Abfragen geeignet ist, aber bei großen Datenmengen scheitert.

machine-learning

llm

June 8, 2026·mike

MAC-SQL: Multi-Agent Collaborative Text-to-SQL

MAC-SQL (COLING 2025) nutzt drei spezialisierte Agenten — Selector für die Schema-Reduktion, Decomposer für die Fragen-Dekomposition und Refiner für die ausführungsgesteuerte SQL-Korrektur — um eine Ausführungsgenauigkeit von 59,59 % im BIRD-Benchmark zu erreichen. Die Ablationsstudie zeigt, dass der Refiner am meisten beiträgt (+4,63 Punkte), was direkte Auswirkungen auf die Generierung von Abfragen für Beancount-Ledger hat.

machine-learning

database

June 7, 2026·mike

DIN-SQL: Zerlegtes In-Context Learning für Text-zu-SQL

DIN-SQL (NeurIPS 2023) zerlegt Text-zu-SQL in Phasen der Schema-Verknüpfung, Komplexitätsklassifizierung und SQL-Generierung. Dies hebt GPT-4 ohne Fine-Tuning von 67,4 % auf 85,3 % Ausführungsgenauigkeit bei Spider – und dieselbe Strategie lässt sich direkt auf natürliche Schnittstellen für die BQL-Abfragesprache von Beancount übertragen.

llm

database

Zeige 25–36 von 87 Beiträgen

Zurück3 / 8Weiter