Mike Thrift
Marketing Manager
BIRD-Benchmark: Die Kluft bei realen Datenbanken in LLM Text-to-SQL
Der BIRD-Benchmark (NeurIPS 2023) testet LLMs auf 95 realen Datenbanken – GPT-4 erreicht mit Domänenhinweisen nur 54,89 % Ausführungsgenauigkeit und ohne nur 34,88 %. Diese Kluft von 20 Prozentpunkten prägt direkt die Anforderungen an eine BQL-Schnittstelle in natürlicher Sprache für Beancount.
Verifizierbar sichere Tool-Nutzung für LLM-Agenten: STPA trifft auf MCP
Forscher der CMU und der NC State schlagen die Verwendung der System-Theoretic Process Analysis (STPA) und eines fähigkeitserweiterten Model Context Protocols vor, um formale Sicherheitsspezifikationen für die Tool-Nutzung von LLM-Agenten abzuleiten, wobei eine Alloy-basierte Verifizierung das Fehlen unsicherer Flüsse in einer Fallstudie zur Kalenderplanung demonstriert.
GraphRAG: Von lokaler zu globaler abfrageorientierter Zusammenfassung
Microsofts GraphRAG erstellt einen Leiden-partitionierten Entitätsgraphen über ein Textkorpus und berechnet Community-Zusammenfassungen im Voraus, um globale Fragen zum Gesamtverständnis zu beantworten, die Standard-Vektor-RAG nicht bewältigen kann – ein Bias-Audit von 2025 zeigt jedoch, dass die Gewinnraten von 72–83 % einbrechen, sobald Positions- und Längenartefakte in der LLM-as-Judge-Evaluierung korrigiert werden.
FinAuditing: LLMs erzielen unter 14 % bei realen SEC-XBRL-Prüfungsaufgaben
FinAuditing testet 13 LLMs Zero-Shot an 1.102 realen SEC-XBRL-Einreichungsinstanzen; die Bestnoten liegen bei 13,86 % bei der finanzmathematischen Verifizierung und 12,42 % beim Abrufen von Konzepten – Ergebnisse, die direkt einschränken, was KI-Buchhaltungstools ohne externe Werkzeuge automatisiert anvertraut werden kann.
InvestorBench: Benchmarking von LLM-Agenten bei finanziellen Handelsentscheidungen
InvestorBench (ACL 2025) testet 13 LLM-Backbones im Backtesting von Aktien-, Krypto- und ETF-Handel anhand von kumulierter Rendite und Sharpe-Ratio – nicht anhand von QA-Genauigkeit. Qwen2.5-72B führt die Aktien-Rangliste mit 46,15 % CR an; auf Finanzen spezialisierte Modelle erweisen sich bei Aktien als kontraproduktiv. Die Modellgröße sagt die Performance zuverlässiger voraus als domänenspezifisches Fine-Tuning.
StructRAG (ICLR 2025): Die Wahl der richtigen Dokumentenstruktur schlägt GraphRAG um 28 Punkte
StructRAG (ICLR 2025) leitet jede Abfrage an einen aufgabengerechten Strukturtyp weiter – Tabelle, Graph, Katalog, Algorithmus oder Chunk – bevor die Argumentation erfolgt. Dabei erzielt es im Loong-Benchmark 28 Punkte mehr als GraphRAG bei 22-facher Geschwindigkeit, wobei allein der DPO-trainierte Router für einen Genauigkeitsgewinn von 15 Punkten sorgt.
Single-Agent-LLMs übertreffen Multi-Agenten-Systeme beim Multi-Hop-Reasoning unter gleichem Thinking-Token-Budget
Ein Stanford-Preprint aus dem Jahr 2026 gleicht die Thinking-Token-Budgets über fünf Multi-Agenten-Architekturen hinweg an und stellt fest, dass Single-Agent-LLMs bei Multi-Hop-Reasoning-Aufgaben mit Multi-Agenten-Systemen gleichziehen oder diese übertreffen – mit theoretischer Fundierung in der Datenverarbeitungsungleichung und Auswirkungen auf das Design von KI-Finanzagenten.
M3MAD-Bench: Sind Multi-Agenten-Debatten über Domänen und Modalitäten hinweg wirklich effektiv?
M3MAD-Bench unterzieht Multi-Agenten-Debatten einem Stresstest über 9 Modelle, 5 Domänen und Vision-Language-Szenarien hinweg. Die Studie zeigt, dass kollektive Täuschung 65 % der Fehler verursacht, adversative Debatten die Genauigkeit um bis zu 12,8 % senken und Self-Consistency die Debattengenauigkeit meist bei geringeren Token-Kosten erreicht.
AGrail: Adaptive Sicherheits-Guardrails für LLM-Agenten mit aufgabenübergreifendem Lernen
AGrail (ACL 2025) führt eine kooperative Zwei-LLM-Guardrail ein, die Sicherheitsprüfungen zur Inferenzzeit mittels Test-Time Adaptation anpasst. Auf Safe-OS erzielt sie eine Erfolgsrate von 0 % bei Prompt-Injection-Angriffen und bewahrt 95,6 % der legitimen Aktionen – im Vergleich zu GuardAgent und LLaMA-Guard, die bis zu 49,2 % legitimer Aktionen blockieren.
ShieldAgent: Verifizierbare Sicherheitsrichtlinien-Argumentation für LLM-Agenten
ShieldAgent (ICML 2025) ersetzt LLM-basierte Guardrails durch probabilistische Regel-Schaltkreise auf Basis von Markov-Logik-Netzwerken und erreicht eine Genauigkeit von 90,4 % bei Agentenangriffen mit 64,7 % weniger API-Aufrufen – und was dies für die verifizierbare Sicherheit in KI-Finanzsystemen bedeutet.
Atlas: Gemeinsames Retriever-Reader-Pre-Training schlägt LLMs mit 540 Mrd. Parametern mit nur 11 Mrd. Parametern
Atlas (JMLR 2023) erreicht eine Genauigkeit von 42,4 % bei Natural Questions mit nur 64 Trainingsbeispielen – und schlägt damit PaLM 540B um 3 Punkte bei Verwendung von nur 11 Mrd. Parametern – durch gemeinsames Pre-Training eines Contriever-basierten Dense Retrievers mit einem T5 Fusion-in-Decoder Reader. Die Analyse umfasst die Grenzen der Retrieval-Genauigkeit, Infrastrukturkosten für einen 587-GB-Index und Auswirkungen auf Beancount-Ledger-QA-Systeme.
Fusion-in-Decoder: Wie Multi-Passage-Retrieval das generative QA verbessert
Izacards und Graves FiD-Architektur kodiert abgerufene Passagen unabhängig voneinander und führt sie dann im Decoder zusammen. Sie übertrifft RAG-Sequence bei NQ und TriviaQA um 4–11 Punkte. Dieser Beitrag untersucht das Design und seine Auswirkungen auf die Beancount-Ledger-Fragenbeantwortung, bei der die Synthese mehrerer Einträge über verschiedene Transaktionen hinweg die Norm ist.