Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Alle Autoren anzeigen

BIRD-Benchmark: Die Kluft bei realen Datenbanken in LLM Text-to-SQL
·mike

BIRD-Benchmark: Die Kluft bei realen Datenbanken in LLM Text-to-SQL

Der BIRD-Benchmark (NeurIPS 2023) testet LLMs auf 95 realen Datenbanken – GPT-4 erreicht mit Domänenhinweisen nur 54,89 % Ausführungsgenauigkeit und ohne nur 34,88 %. Diese Kluft von 20 Prozentpunkten prägt direkt die Anforderungen an eine BQL-Schnittstelle in natürlicher Sprache für Beancount.

beancount
ai
llm
database
+3
Verifizierbar sichere Tool-Nutzung für LLM-Agenten: STPA trifft auf MCP
·mike

Verifizierbar sichere Tool-Nutzung für LLM-Agenten: STPA trifft auf MCP

Forscher der CMU und der NC State schlagen die Verwendung der System-Theoretic Process Analysis (STPA) und eines fähigkeitserweiterten Model Context Protocols vor, um formale Sicherheitsspezifikationen für die Tool-Nutzung von LLM-Agenten abzuleiten, wobei eine Alloy-basierte Verifizierung das Fehlen unsicherer Flüsse in einer Fallstudie zur Kalenderplanung demonstriert.

ai
llm
security
automation
+3
GraphRAG: Von lokaler zu globaler abfrageorientierter Zusammenfassung
·mike

GraphRAG: Von lokaler zu globaler abfrageorientierter Zusammenfassung

Microsofts GraphRAG erstellt einen Leiden-partitionierten Entitätsgraphen über ein Textkorpus und berechnet Community-Zusammenfassungen im Voraus, um globale Fragen zum Gesamtverständnis zu beantworten, die Standard-Vektor-RAG nicht bewältigen kann – ein Bias-Audit von 2025 zeigt jedoch, dass die Gewinnraten von 72–83 % einbrechen, sobald Positions- und Längenartefakte in der LLM-as-Judge-Evaluierung korrigiert werden.

ai
llm
machine-learning
beancount
+3
FinAuditing: LLMs erzielen unter 14 % bei realen SEC-XBRL-Prüfungsaufgaben
·mike

FinAuditing: LLMs erzielen unter 14 % bei realen SEC-XBRL-Prüfungsaufgaben

FinAuditing testet 13 LLMs Zero-Shot an 1.102 realen SEC-XBRL-Einreichungsinstanzen; die Bestnoten liegen bei 13,86 % bei der finanzmathematischen Verifizierung und 12,42 % beim Abrufen von Konzepten – Ergebnisse, die direkt einschränken, was KI-Buchhaltungstools ohne externe Werkzeuge automatisiert anvertraut werden kann.

llm
ai
financial-reporting
machine-learning
+2
InvestorBench: Benchmarking von LLM-Agenten bei finanziellen Handelsentscheidungen
·mike

InvestorBench: Benchmarking von LLM-Agenten bei finanziellen Handelsentscheidungen

InvestorBench (ACL 2025) testet 13 LLM-Backbones im Backtesting von Aktien-, Krypto- und ETF-Handel anhand von kumulierter Rendite und Sharpe-Ratio – nicht anhand von QA-Genauigkeit. Qwen2.5-72B führt die Aktien-Rangliste mit 46,15 % CR an; auf Finanzen spezialisierte Modelle erweisen sich bei Aktien als kontraproduktiv. Die Modellgröße sagt die Performance zuverlässiger voraus als domänenspezifisches Fine-Tuning.

llm
ai
finance
machine-learning
+3
StructRAG (ICLR 2025): Die Wahl der richtigen Dokumentenstruktur schlägt GraphRAG um 28 Punkte
·mike

StructRAG (ICLR 2025): Die Wahl der richtigen Dokumentenstruktur schlägt GraphRAG um 28 Punkte

StructRAG (ICLR 2025) leitet jede Abfrage an einen aufgabengerechten Strukturtyp weiter – Tabelle, Graph, Katalog, Algorithmus oder Chunk – bevor die Argumentation erfolgt. Dabei erzielt es im Loong-Benchmark 28 Punkte mehr als GraphRAG bei 22-facher Geschwindigkeit, wobei allein der DPO-trainierte Router für einen Genauigkeitsgewinn von 15 Punkten sorgt.

ai
llm
machine-learning
beancount
+3
Single-Agent-LLMs übertreffen Multi-Agenten-Systeme beim Multi-Hop-Reasoning unter gleichem Thinking-Token-Budget
·mike

Single-Agent-LLMs übertreffen Multi-Agenten-Systeme beim Multi-Hop-Reasoning unter gleichem Thinking-Token-Budget

Ein Stanford-Preprint aus dem Jahr 2026 gleicht die Thinking-Token-Budgets über fünf Multi-Agenten-Architekturen hinweg an und stellt fest, dass Single-Agent-LLMs bei Multi-Hop-Reasoning-Aufgaben mit Multi-Agenten-Systemen gleichziehen oder diese übertreffen – mit theoretischer Fundierung in der Datenverarbeitungsungleichung und Auswirkungen auf das Design von KI-Finanzagenten.

ai
llm
machine-learning
automation
+3
M3MAD-Bench: Sind Multi-Agenten-Debatten über Domänen und Modalitäten hinweg wirklich effektiv?
·mike

M3MAD-Bench: Sind Multi-Agenten-Debatten über Domänen und Modalitäten hinweg wirklich effektiv?

M3MAD-Bench unterzieht Multi-Agenten-Debatten einem Stresstest über 9 Modelle, 5 Domänen und Vision-Language-Szenarien hinweg. Die Studie zeigt, dass kollektive Täuschung 65 % der Fehler verursacht, adversative Debatten die Genauigkeit um bis zu 12,8 % senken und Self-Consistency die Debattengenauigkeit meist bei geringeren Token-Kosten erreicht.

ai
llm
machine-learning
automation
+3
AGrail: Adaptive Sicherheits-Guardrails für LLM-Agenten mit aufgabenübergreifendem Lernen
·mike

AGrail: Adaptive Sicherheits-Guardrails für LLM-Agenten mit aufgabenübergreifendem Lernen

AGrail (ACL 2025) führt eine kooperative Zwei-LLM-Guardrail ein, die Sicherheitsprüfungen zur Inferenzzeit mittels Test-Time Adaptation anpasst. Auf Safe-OS erzielt sie eine Erfolgsrate von 0 % bei Prompt-Injection-Angriffen und bewahrt 95,6 % der legitimen Aktionen – im Vergleich zu GuardAgent und LLaMA-Guard, die bis zu 49,2 % legitimer Aktionen blockieren.

ai
llm
security
automation
+3
ShieldAgent: Verifizierbare Sicherheitsrichtlinien-Argumentation für LLM-Agenten
·mike

ShieldAgent: Verifizierbare Sicherheitsrichtlinien-Argumentation für LLM-Agenten

ShieldAgent (ICML 2025) ersetzt LLM-basierte Guardrails durch probabilistische Regel-Schaltkreise auf Basis von Markov-Logik-Netzwerken und erreicht eine Genauigkeit von 90,4 % bei Agentenangriffen mit 64,7 % weniger API-Aufrufen – und was dies für die verifizierbare Sicherheit in KI-Finanzsystemen bedeutet.

ai
llm
machine-learning
security
+4
Atlas: Gemeinsames Retriever-Reader-Pre-Training schlägt LLMs mit 540 Mrd. Parametern mit nur 11 Mrd. Parametern
·mike

Atlas: Gemeinsames Retriever-Reader-Pre-Training schlägt LLMs mit 540 Mrd. Parametern mit nur 11 Mrd. Parametern

Atlas (JMLR 2023) erreicht eine Genauigkeit von 42,4 % bei Natural Questions mit nur 64 Trainingsbeispielen – und schlägt damit PaLM 540B um 3 Punkte bei Verwendung von nur 11 Mrd. Parametern – durch gemeinsames Pre-Training eines Contriever-basierten Dense Retrievers mit einem T5 Fusion-in-Decoder Reader. Die Analyse umfasst die Grenzen der Retrieval-Genauigkeit, Infrastrukturkosten für einen 587-GB-Index und Auswirkungen auf Beancount-Ledger-QA-Systeme.

ai
machine-learning
llm
data-science
+3
Fusion-in-Decoder: Wie Multi-Passage-Retrieval das generative QA verbessert
·mike

Fusion-in-Decoder: Wie Multi-Passage-Retrieval das generative QA verbessert

Izacards und Graves FiD-Architektur kodiert abgerufene Passagen unabhängig voneinander und führt sie dann im Decoder zusammen. Sie übertrifft RAG-Sequence bei NQ und TriviaQA um 4–11 Punkte. Dieser Beitrag untersucht das Design und seine Auswirkungen auf die Beancount-Ledger-Fragenbeantwortung, bei der die Synthese mehrerer Einträge über verschiedene Transaktionen hinweg die Norm ist.

ai
machine-learning
llm
beancount
+2
Zeige 37–48 von 87 Beiträgen