Una enquesta sistemàtica sobre els mètodes d'estimació de la confiança i el calibratge dels LLM —enfocaments logit de caixa blanca, SelfCheckGPT basat en la consistència i entropia semàntica— revela que les puntuacions de confiança verbalitzades del GPT-4 només assoleixen un AUROC del ~62,7%, a penes per sobre de l'atzar, amb implicacions directes per al desplegament d'agents conscients de la incertesa en les finances i la comptabilitat.
ReDAct executa un model petit per defecte i escala a un model car només quan la perplexitat a nivell de tòquens indica incertesa, aconseguint un estalvi de costos del 64% respecte a l'ús exclusiu de GPT-5.2 mentre iguala o supera la seva precisió — un patró aplicable directament als agents de categorització de transaccions de Beancount.
Investigadors de la CMU i de la NC State proposen l'ús de l'Anàlisi de Processos Teòric del Sistema (STPA) i un Model Context Protocol millorat amb capacitats per derivar especificacions de seguretat formals per a l'ús d'eines d'agents de LLM, amb una verificació basada en Alloy que demostra l'absència de fluxos insegurs en un estudi de cas de programació de calendaris.
AGrail (ACL 2025) introdueix un guardrail cooperatiu de dos LLM que adapta les comprovacions de seguretat en temps d'inferència mitjançant l'adaptació en temps de prova, aconseguint un 0% d'èxit en atacs d'injecció de prompts i un 95,6% de preservació d'accions benignes a Safe-OS — en comparació amb GuardAgent i LLaMA-Guard que bloquegen fins al 49,2% de les accions legítimes.
ShieldAgent (ICML 2025) substitueix les barreres de seguretat basades en LLM per circuits de regles probabilístics construïts sobre xarxes lògiques de Markov, aconseguint una precisió del 90,4% en atacs contra agents amb un 64,7% menys de crides a l'API — i què significa això per a la seguretat verificable en sistemes d'IA financera.
GuardAgent (ICML 2025) situa un agent LLM independent entre un agent objectiu i el seu entorn, verificant cada acció proposada mitjançant la generació i execució de codi Python — aconseguint una precisió del 98,7% en l'aplicació de polítiques mentre preserva el 100% de la finalització de tasques, enfront del 81% de precisió i el 29–71% de fracàs en les tasques per a regles de seguretat integrades en el prompt.
Huang et al. (ICLR 2024) mostren que els LLM a qui se'ls demana revisar el seu propi raonament sense feedback extern degraden constantment la seva precisió —GPT-4 baixa del 95,5% al 91,5% a GSM8K— i què significa això per al disseny d'agents fiables d'assentaments comptables de Beancount.
PHANTOM (NeurIPS 2025) és el primer banc de proves per mesurar la detecció d'al·lucinacions d'LLM en presentacions reals a la SEC amb longituds de context de fins a 30.000 tokens. Qwen3-30B-A3B-Thinking lidera amb un F1=0,882; els models de 7B puntuen a prop de l'atzar — amb implicacions directes per als agents de comptabilitat autònoms.