Mike Thrift

Marketing Manager

May 1, 2026·mike

SWE-agent: Wie Interface-Design automatisierte Softwareentwicklung ermöglicht

SWE-agent (NeurIPS 2024) führt Agent-Computer-Interfaces (ACIs) ein – spezialisierte Ebenen zwischen LLMs und Softwareumgebungen. Es zeigt eine Verbesserung von 10,7 Prozentpunkten gegenüber dem reinen Shell-Zugriff und eine Lösungsrate von 12,47 % auf dem SWE-bench mit GPT-4 Turbo. Interface-Design, nicht die Modellfähigkeit, ist der primäre Engpass für autonome Coding-Agenten.

llm

automation

April 30, 2026·mike

SWE-bench: Können Sprachmodelle reale GitHub-Issues lösen?

SWE-bench evaluiert Sprachmodelle anhand von 2.294 realen GitHub-Issues aus 12 Python-Repositories mittels ausführungsbasierter Tests; zum Zeitpunkt der Veröffentlichung löste Claude 2 nur 1,96 % der Probleme bei realistischer Informationsbeschaffung (Retrieval), was den De-facto-Benchmark für Coding-Agenten etablierte und Fehlerquellen bei Retrieval und Patch-Länge aufzeigte, die direkt relevant für Beancount-Write-Back-Agenten sind.

llm

machine-learning

April 29, 2026·mike

CodeAct: Warum ausführbarer Python-Code LLM-Agenten um 20 % genauer macht

CodeAct (ICML 2024) ersetzt JSON-Tool-Calling durch ausführbaren Python-Code. Dies verbessert die Erfolgsraten von GPT-4-Agenten bei Multi-Tool-Aufgaben um ca. 20 Prozentpunkte und reduziert die Interaktionsschritte um 30 % – mit direkten Auswirkungen auf die Entwicklung zuverlässiger Beancount-Abgleich-Agenten.

llm

automation

April 28, 2026·mike

LLMs können Logikfehler noch nicht selbst korrigieren — ICLR 2024 Ergebnisse und Auswirkungen auf Finance AI

Huang et al. (ICLR 2024) zeigen, dass LLMs, die aufgefordert werden, ihre eigene Logik ohne externes Feedback zu überprüfen, die Genauigkeit konsequent verschlechtern – GPT-4 sinkt bei GSM8K von 95,5 % auf 91,5 % – und was dies für das Design zuverlässiger Beancount-Buchungsagenten bedeutet.

llm

machine-learning

April 27, 2026·mike

Tree of Thoughts: Bewusste Problemlösung mit LLM-Suche

Tree of Thoughts (ToT) erreicht 74 % im Game of 24 gegenüber 4 % bei Standard-GPT-4-CoT, indem LLM-Argumentation in einem verzweigten Suchbaum mit Pruning und Backtracking organisiert wird – mit direkten Auswirkungen auf mehrstufige Finanzklassifizierung und Steueroptimierung in Beancount-Workflows.

llm

machine-learning

April 26, 2026·mike

CRITIC: Warum die LLM-Selbstkorrektur externes Werkzeug-Feedback erfordert

CRITIC (ICLR 2024) erzielt 7,7 F1-Gewinne bei Open-Domain QA und eine Toxizitätsreduzierung von 79,2 %, indem die LLM-Revision in externen Werkzeugsignalen verankert wird – eine Verify-then-Correct-Schleife, die direkt auf die Rückschreibsicherheit für Beancount-Finanzagenten übertragbar ist.

llm

machine-learning

April 25, 2026·mike

Reflexion: Sprach-Agenten, die aus Fehlern lernen, ohne neu trainiert zu werden

Reflexion (NeurIPS 2023) ermöglicht es LLM-Agenten, sich zu verbessern, indem sie verbale Post-Mortems in einem episodischen Puffer speichern – ganz ohne Gewichtungsaktualisierungen. Es erreicht 91 % bei HumanEval mit GPT-4, scheitert jedoch bei WebShop, was eine strukturelle Einschränkung offenbart: Verbales bestärkendes Lernen funktioniert nur, wenn der Evaluator ein klares, umsetzbares Signal liefert. Hier erfahren Sie, was das für den Aufbau eines selbstkorrigierenden Beancount-Hauptbuch-Agenten bedeutet.

llm

machine-learning

April 24, 2026·mike

Self-Consistency: Majority-Vote-Sampling steigert die Chain-of-Thought-Genauigkeit

Self-Consistency ersetzt das Greedy-Chain-of-Thought-Decoding durch eine Mehrheitsentscheidung über N gesampelte Argumentationspfade. Dies steigert die GPT-3-Genauigkeit bei GSM8K um 17,9 Prozentpunkte ohne jegliches Fine-Tuning und lässt sich direkt auf mehrstufige Finanzberechnungen anwenden, bei denen ein einzelner LLM-Durchlauf unzuverlässig ist.

llm

machine-learning

April 23, 2026·mike

PAL: Programm-gestützte Sprachmodelle für zuverlässige Finanzarithmetik

PAL (Programm-gestützte Sprachmodelle) erzielt eine Genauigkeitssteigerung von +38 Prozentpunkten gegenüber Chain-of-Thought bei arithmetiklastigen Aufgaben, indem die Berechnung an einen Python-Interpreter delegiert wird – eine direkt anwendbare Architektur für zuverlässige Beancount-Ledger-Abfragen und Finanz-KI.

llm

machine-learning

April 22, 2026·mike

Können LLMs über tabellarische Daten schlussfolgern? Was vier Benchmarks über Finanz-KI verraten

Vier Benchmarks aus den Jahren 2024–2025 zeigen, dass GPT-4 bei realen Tabellen-Frage-Antwort-Systemen 42 % erreicht, während Menschen auf 86 % kommen. Komplexe Aggregationen brechen auf 19,6 % ein – und die native Syntax von Beancount befindet sich am leistungsschwächsten Ende der Serialisierungshierarchie für LLM-Inputs.

llm

beancount

April 21, 2026·mike

Konstitutionelle KI für Buchhaltungs-Agenten: RLAIF, Richtlinienregeln und Goodharting-Risiken

Anthropics Paper zu Constitutional AI (Bai et al., 2022) trainiert LLMs darauf, Regeln mittels KI-generiertem Feedback statt menschlicher Schadens-Labels zu folgen. Dieses Forschungsprotokoll untersucht, wie die RLAIF-Pipeline aus Kritik, Überarbeitung und Präferenz auf die Rückschreibesicherheit für autonome Beancount-Hauptbuch-Agenten übertragbar ist – und wie Goodharting, Kalibrierungsfehler und Dual-Use-Risiken aussehen, wenn die „Verfassung“ ein Kontenplan anstelle eines Ethik-Regelwerks ist.

machine-learning

llm

April 20, 2026·mike

Chain-of-Thought-Prompting: Precision-Recall-Abwägungen für Finanz-KI

Eine genaue Lektüre des Chain-of-Thought-Papers von Wei et al. aus dem Jahr 2022 und dessen Bedeutung für Finanz-KI – warum CoT die Präzision erhöht, aber den Recall bei der Erkennung seltener Ereignisse verringern kann, warum die Skalierungsschwelle für Produktionsagenten wichtig ist und worauf Finanzteams achten sollten, die auf LLMs aufbauen.

llm

machine-learning

Zeige 73–84 von 87 Beiträgen

Zurück7 / 8Weiter