8 berichten getagd met "Trust"

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

LLM-betrouwbaarheid en -kalibratie: Een overzicht van wat het onderzoek daadwerkelijk aantoont

Een systematisch overzicht van LLM-betrouwbaarheidsschatting en kalibratiemethoden — white-box logit-benaderingen, op consistentie gebaseerde SelfCheckGPT en semantische entropie — onthult dat geverbaliseerde betrouwbaarheidsscores van GPT-4 slechts ~62,7% AUROC behalen, nauwelijks boven kansniveau, met directe gevolgen voor de inzet van onzekerheidsbewuste agents in financiën en boekhouding.

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

ReDAct draait standaard een klein model en escaleert pas naar een duur model wanneer perplexiteit op tokenniveau onzekerheid signaleert. Dit levert een kostenbesparing op van 64% ten opzichte van alleen GPT-5.2, terwijl de nauwkeurigheid gelijk blijft of zelfs wordt overtroffen — een direct toepasbaar patroon voor Beancount-agenten voor transactie-categorisering.

AILLMSecurityAutomationBeancountComplianceTrust

Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP

Onderzoekers van CMU en NC State stellen het gebruik voor van System-Theoretic Process Analysis (STPA) en een voor capaciteiten uitgebreid Model Context Protocol om formele veiligheidsspecificaties af te leiden voor het toolgebruik door LLM-agenten, waarbij Alloy-gebaseerde verificatie de afwezigheid van onveilige stromen aantoont in een casestudy over agendaplanning.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken

AGrail (ACL 2025) introduceert een coöperatieve waarborg met twee LLM's die veiligheidscontroles tijdens inferentie aanpast via test-time adaptatie, met een succespercentage van 0% voor prompt-injectie-aanvallen en 95,6% behoud van legitieme acties op Safe-OS — vergeleken met GuardAgent en LLaMA-Guard die tot 49,2% van de legitieme acties blokkeren.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Verifieerbare veiligheidsbeleid-redenering voor LLM-agents

ShieldAgent (ICML 2025) vervangt op LLM gebaseerde guardrails door probabilistische regelcircuits gebouwd op Markov Logic Networks, waarmee een nauwkeurigheid van 90,4% op agent-aanvallen wordt behaald met 64,7% minder API-oproepen — en wat dit betekent voor verifieerbare veiligheid in financiële AI-systemen.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering

GuardAgent (ICML 2025) plaatst een afzonderlijke LLM-agent tussen een doelagent en zijn omgeving, waarbij elke voorgestelde actie wordt geverifieerd door Python-code te genereren en uit te voeren — hiermee wordt een nauwkeurigheid van 98,7% in beleidshandhaving bereikt met behoud van 100% taakvoltooiing, vergeleken met 81% nauwkeurigheid en 29–71% taakuitval bij in de prompt ingebedde veiligheidsregels.

LLMAIMachine LearningAutomationBeancountFinanceTrust

LLM's kunnen hun redeneringen nog niet zelf corrigeren — ICLR 2024-bevindingen en implicaties voor Financiële AI

Huang et al. (ICLR 2024) tonen aan dat LLM's die hun eigen redeneringen moeten herzien zonder externe feedback, consequent in nauwkeurigheid afnemen — GPT-4 zakt van 95,5% naar 91,5% op GSM8K — en wat dit betekent voor het ontwerpen van betrouwbare agenten voor Beancount-boekingen.

LLMAIMachine LearningFinanceFinancial ReportingTrustBeancountData Science

PHANTOM (NeurIPS 2025): Het meten van LLM-hallucinatie-detectie in financiële documenten

PHANTOM (NeurIPS 2025) is de eerste benchmark die LLM-hallucinatie-detectie meet op echte SEC-filings over contextlengtes tot 30.000 tokens. Qwen3-30B-A3B-Thinking loopt voorop met F1=0,882; 7B-modellen scoren bijna op het niveau van willekeurig gokken — met directe gevolgen voor autonome boekhoudagenten.

Alles Over Trust

LLM-betrouwbaarheid en -kalibratie: Een overzicht van wat het onderzoek daadwerkelijk aantoont

Onzekerheidsbewuste Deferral voor LLM-agenten: Wanneer te escaleren van kleine naar grote modellen

Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP

AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken

ShieldAgent: Verifieerbare veiligheidsbeleid-redenering voor LLM-agents

GuardAgent: Deterministische handhaving van veiligheid voor LLM-agents via code-uitvoering

LLM's kunnen hun redeneringen nog niet zelf corrigeren — ICLR 2024-bevindingen en implicaties voor Financiële AI

PHANTOM (NeurIPS 2025): Het meten van LLM-hallucinatie-detectie in financiële documenten

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch