StructRAG (ICLR 2025) leitet jede Abfrage an einen aufgabengerechten Strukturtyp weiter – Tabelle, Graph, Katalog, Algorithmus oder Chunk – bevor die Argumentation erfolgt. Dabei erzielt es im Loong-Benchmark 28 Punkte mehr als GraphRAG bei 22-facher Geschwindigkeit, wobei allein der DPO-trainierte Router für einen Genauigkeitsgewinn von 15 Punkten sorgt.
Ein Stanford-Preprint aus dem Jahr 2026 gleicht die Thinking-Token-Budgets über fünf Multi-Agenten-Architekturen hinweg an und stellt fest, dass Single-Agent-LLMs bei Multi-Hop-Reasoning-Aufgaben mit Multi-Agenten-Systemen gleichziehen oder diese übertreffen – mit theoretischer Fundierung in der Datenverarbeitungsungleichung und Auswirkungen auf das Design von KI-Finanzagenten.
M3MAD-Bench unterzieht Multi-Agenten-Debatten einem Stresstest über 9 Modelle, 5 Domänen und Vision-Language-Szenarien hinweg. Die Studie zeigt, dass kollektive Täuschung 65 % der Fehler verursacht, adversative Debatten die Genauigkeit um bis zu 12,8 % senken und Self-Consistency die Debattengenauigkeit meist bei geringeren Token-Kosten erreicht.
AGrail (ACL 2025) führt eine kooperative Zwei-LLM-Guardrail ein, die Sicherheitsprüfungen zur Inferenzzeit mittels Test-Time Adaptation anpasst. Auf Safe-OS erzielt sie eine Erfolgsrate von 0 % bei Prompt-Injection-Angriffen und bewahrt 95,6 % der legitimen Aktionen – im Vergleich zu GuardAgent und LLaMA-Guard, die bis zu 49,2 % legitimer Aktionen blockieren.
ShieldAgent (ICML 2025) ersetzt LLM-basierte Guardrails durch probabilistische Regel-Schaltkreise auf Basis von Markov-Logik-Netzwerken und erreicht eine Genauigkeit von 90,4 % bei Agentenangriffen mit 64,7 % weniger API-Aufrufen – und was dies für die verifizierbare Sicherheit in KI-Finanzsystemen bedeutet.
Atlas (JMLR 2023) erreicht eine Genauigkeit von 42,4 % bei Natural Questions mit nur 64 Trainingsbeispielen – und schlägt damit PaLM 540B um 3 Punkte bei Verwendung von nur 11 Mrd. Parametern – durch gemeinsames Pre-Training eines Contriever-basierten Dense Retrievers mit einem T5 Fusion-in-Decoder Reader. Die Analyse umfasst die Grenzen der Retrieval-Genauigkeit, Infrastrukturkosten für einen 587-GB-Index und Auswirkungen auf Beancount-Ledger-QA-Systeme.
Izacards und Graves FiD-Architektur kodiert abgerufene Passagen unabhängig voneinander und führt sie dann im Decoder zusammen. Sie übertrifft RAG-Sequence bei NQ und TriviaQA um 4–11 Punkte. Dieser Beitrag untersucht das Design und seine Auswirkungen auf die Beancount-Ledger-Fragenbeantwortung, bei der die Synthese mehrerer Einträge über verschiedene Transaktionen hinweg die Norm ist.
GuardAgent (ICML 2025) platziert einen separaten LLM-Agenten zwischen einem Zielagenten und seiner Umgebung, verifiziert jede vorgeschlagene Aktion durch Generierung und Ausführung von Python-Code und erreicht so eine Genauigkeit bei der Richtliniendurchsetzung von 98,7 % bei 100 % Aufgabenerfüllung, verglichen mit 81 % Genauigkeit und 29–71 % Aufgabenfehlern bei Prompt-basierten Sicherheitsregeln.
Eine genaue Lektüre des ICML 2024 Multiagenten-Debatten-Papers von Du et al. – das 14,8 Punkte Genauigkeitsgewinn in der Arithmetik meldet – zusammen mit Widerlegungen aus dem Jahr 2025, die zeigen, dass Einzelagenten mit gleichem Budget die Debattenleistung erreichen, sowie eine Analyse, warum kollektive Täuschung (65 % der Debattenfehler) spezifische Risiken für KI-gestützte Ledger-Commits birgt.