7 berichten getagd met "Compliance"

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Evaluatie van LLM-agents bij het gebruik van financiële tools in de praktijk

FinToolBench koppelt 760 live financiële API-tools aan 295 uitvoerbare queries om LLM-agents te benchmarken op echte financiële taken — waarbij de conservatieve aanroepfrequentie van 22,7% van GPT-4o een hogere antwoordkwaliteit (CSS 0,670) oplevert dan de agressieve 87,1% TIR van Qwen3-8B, terwijl de intentie-mismatch bij alle geteste modellen meer dan 50% bedraagt.

AILLMSecurityAutomationBeancountComplianceTrust

Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP

Onderzoekers van CMU en NC State stellen het gebruik voor van System-Theoretic Process Analysis (STPA) en een voor capaciteiten uitgebreid Model Context Protocol om formele veiligheidsspecificaties af te leiden voor het toolgebruik door LLM-agenten, waarbij Alloy-gebaseerde verificatie de afwezigheid van onveilige stromen aantoont in een casestudy over agendaplanning.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: LLM's scoren onder de 14% op echte SEC XBRL-audittaken

FinAuditing test 13 LLM's zero-shot op 1.102 echte SEC XBRL-indieningen; de hoogste scores zijn 13,86% op financiële wiskundige verificatie en 12,42% op concept-retrieval—resultaten die direct de grenzen aangeven van wat AI-boekhoudtools betrouwbaar kunnen automatiseren zonder externe hulpmiddelen.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken

AGrail (ACL 2025) introduceert een coöperatieve waarborg met twee LLM's die veiligheidscontroles tijdens inferentie aanpast via test-time adaptatie, met een succespercentage van 0% voor prompt-injectie-aanvallen en 95,6% behoud van legitieme acties op Safe-OS — vergeleken met GuardAgent en LLaMA-Guard die tot 49,2% van de legitieme acties blokkeren.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Verifieerbare veiligheidsbeleid-redenering voor LLM-agents

ShieldAgent (ICML 2025) vervangt op LLM gebaseerde guardrails door probabilistische regelcircuits gebouwd op Markov Logic Networks, waarmee een nauwkeurigheid van 90,4% op agent-aanvallen wordt behaald met 64,7% minder API-oproepen — en wat dit betekent voor verifieerbare veiligheid in financiële AI-systemen.

Fraud DetectionLLMDouble-EntryJournal EntriesAIMachine LearningComplianceBookkeeping

AuditCopilot: LLM's voor fraudedetectie in dubbel boekhouden

AuditCopilot past open-source LLM's (Mistral-8B, Gemma, Llama-3.1) toe op fraudedetectie bij bedrijfsjournaalposten, waarbij het aantal fout-positieven wordt teruggebracht van 942 naar 12 — maar ablatie onthult dat het LLM voornamelijk fungeert als een syntheselaag bovenop Isolation Forest-scores, niet als een onafhankelijke anomaliedetector.

AIMachine LearningLLMAutomationComplianceAccountingBeancount

Constitutionele AI voor boekhoud-agents: RLAIF, beleidsregels en Goodharting-risico's

Anthropic's Constitutional AI-artikel (Bai et al., 2022) traint LLM's om regels te volgen met behulp van AI-gegenereerde feedback in plaats van menselijke labels voor schadelijkheid. Dit onderzoeksdagboek onderzoekt hoe de RLAIF-pijplijn voor kritiek, herziening en voorkeuren vertaalt naar write-back-veiligheid voor autonome Beancount-grootboekagents — en hoe Goodharting, kalibratiefouten en dual-use-risico's eruitzien wanneer de "constitutie" een rekeningschema is in plaats van een ethische regelset.

Alles Over Compliance

FinToolBench: Evaluatie van LLM-agents bij het gebruik van financiële tools in de praktijk

Verifieerbaar Veilig Toolgebruik voor LLM-agenten: STPA ontmoet MCP

FinAuditing: LLM's scoren onder de 14% op echte SEC XBRL-audittaken

AGrail: Adaptieve Veiligheidswaarborgen voor LLM-agenten die Leren Over Meerdere Taken

ShieldAgent: Verifieerbare veiligheidsbeleid-redenering voor LLM-agents

AuditCopilot: LLM's voor fraudedetectie in dubbel boekhouden

Constitutionele AI voor boekhoud-agents: RLAIF, beleidsregels en Goodharting-risico's

Aan de slag met Beancount.io

Aan de slag

Functies

Gemeenschap

Juridisch