8 Posts getaggt mit „Trust“

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

LLM-Konfidenz und Kalibrierung: Ein Überblick über den tatsächlichen Stand der Forschung

Eine systematische Untersuchung von Methoden zur Schätzung und Kalibrierung der LLM-Konfidenz – White-Box-Logit-Ansätze, konsistenzbasiertes SelfCheckGPT und semantische Entropie – zeigt, dass verbalisierte Konfidenzwerte von GPT-4 nur ca. 62,7 % AUROC erreichen, was kaum über dem Zufallsniveau liegt. Dies hat direkte Auswirkungen auf den Einsatz von unsicherheitsbewussten Agenten im Finanzwesen und in der Buchhaltung.

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte

ReDAct führt standardmäßig ein kleines Modell aus und eskaliert nur dann zu einem teuren Modell, wenn die Perplexität auf Token-Ebene Unsicherheit signalisiert. Dabei werden 64 % Kosten gegenüber einer reinen GPT-5.2-Nutzung eingespart, bei gleichbleibender oder höherer Genauigkeit – ein direkt anwendbares Muster für Beancount-Transaktionskategorisierungs-Agenten.

AILLMSecurityAutomationBeancountComplianceTrust

Verifizierbar sichere Tool-Nutzung für LLM-Agenten: STPA trifft auf MCP

Forscher der CMU und der NC State schlagen die Verwendung der System-Theoretic Process Analysis (STPA) und eines fähigkeitserweiterten Model Context Protocols vor, um formale Sicherheitsspezifikationen für die Tool-Nutzung von LLM-Agenten abzuleiten, wobei eine Alloy-basierte Verifizierung das Fehlen unsicherer Flüsse in einer Fallstudie zur Kalenderplanung demonstriert.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Adaptive Sicherheits-Guardrails für LLM-Agenten mit aufgabenübergreifendem Lernen

AGrail (ACL 2025) führt eine kooperative Zwei-LLM-Guardrail ein, die Sicherheitsprüfungen zur Inferenzzeit mittels Test-Time Adaptation anpasst. Auf Safe-OS erzielt sie eine Erfolgsrate von 0 % bei Prompt-Injection-Angriffen und bewahrt 95,6 % der legitimen Aktionen – im Vergleich zu GuardAgent und LLaMA-Guard, die bis zu 49,2 % legitimer Aktionen blockieren.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Verifizierbare Sicherheitsrichtlinien-Argumentation für LLM-Agenten

ShieldAgent (ICML 2025) ersetzt LLM-basierte Guardrails durch probabilistische Regel-Schaltkreise auf Basis von Markov-Logik-Netzwerken und erreicht eine Genauigkeit von 90,4 % bei Agentenangriffen mit 64,7 % weniger API-Aufrufen – und was dies für die verifizierbare Sicherheit in KI-Finanzsystemen bedeutet.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung

GuardAgent (ICML 2025) platziert einen separaten LLM-Agenten zwischen einem Zielagenten und seiner Umgebung, verifiziert jede vorgeschlagene Aktion durch Generierung und Ausführung von Python-Code und erreicht so eine Genauigkeit bei der Richtliniendurchsetzung von 98,7 % bei 100 % Aufgabenerfüllung, verglichen mit 81 % Genauigkeit und 29–71 % Aufgabenfehlern bei Prompt-basierten Sicherheitsregeln.

LLMAIMachine LearningAutomationBeancountFinanceTrust

LLMs können Logikfehler noch nicht selbst korrigieren — ICLR 2024 Ergebnisse und Auswirkungen auf Finance AI

Huang et al. (ICLR 2024) zeigen, dass LLMs, die aufgefordert werden, ihre eigene Logik ohne externes Feedback zu überprüfen, die Genauigkeit konsequent verschlechtern – GPT-4 sinkt bei GSM8K von 95,5 % auf 91,5 % – und was dies für das Design zuverlässiger Beancount-Buchungsagenten bedeutet.

LLMAIMachine LearningFinanceFinancial ReportingTrustBeancountData Science

PHANTOM (NeurIPS 2025): Messung der LLM-Halluzinationserkennung in Finanzdokumenten

PHANTOM (NeurIPS 2025) ist der erste Benchmark zur Messung der LLM-Halluzinationserkennung bei echten SEC-Einreichungen über Kontextlängen von bis zu 30.000 Token. Qwen3-30B-A3B-Thinking führt mit F1=0,882; 7B-Modelle schneiden fast wie Zufallsraten ab – mit direkten Auswirkungen für autonome Buchhaltungs-Agenten.

Alles Über Trust

LLM-Konfidenz und Kalibrierung: Ein Überblick über den tatsächlichen Stand der Forschung

Unsicherheitsbewusste Weiterleitung für LLM-Agenten: Wann von kleinen zu großen Modellen eskaliert werden sollte

Verifizierbar sichere Tool-Nutzung für LLM-Agenten: STPA trifft auf MCP

AGrail: Adaptive Sicherheits-Guardrails für LLM-Agenten mit aufgabenübergreifendem Lernen

ShieldAgent: Verifizierbare Sicherheitsrichtlinien-Argumentation für LLM-Agenten

GuardAgent: Deterministische Sicherheitsdurchsetzung für LLM-Agenten via Code-Ausführung

LLMs können Logikfehler noch nicht selbst korrigieren — ICLR 2024 Ergebnisse und Auswirkungen auf Finance AI

PHANTOM (NeurIPS 2025): Messung der LLM-Halluzinationserkennung in Finanzdokumenten

Erste Schritte mit Beancount.io

Erste Schritte

Funktionen

Community

Rechtliches