O FinToolBench combina 760 ferramentas de API financeira reais com 295 consultas executáveis para avaliar agentes de LLM em tarefas financeiras do mundo real — revelando que a taxa de invocação conservadora de 22,7% do GPT-4o gera uma qualidade de resposta superior (CSS 0,670) em comparação com a TIR agressiva de 87,1% do Qwen3-8B, enquanto o desajuste de intenção ultrapassa 50% em todos os modelos testados.
Pesquisadores da CMU e NC State propõem o uso da Análise de Processos Teórico-Sistêmica (STPA) e um Protocolo de Contexto de Modelo aprimorado por recursos para derivar especificações formais de segurança para o uso de ferramentas por agentes de LLM, com verificação baseada em Alloy demonstrando a ausência de fluxos inseguros em um estudo de caso de agendamento de calendário.
O FinAuditing testa 13 LLMs zero-shot em 1.102 instâncias reais de arquivamentos SEC XBRL; as pontuações máximas são de 13,86% na verificação matemática financeira e 12,42% na recuperação de conceitos — resultados que limitam diretamente o que as ferramentas de contabilidade de IA podem ser confiáveis para automatizar sem ferramentas externas.
O AGrail (ACL 2025) apresenta um trilho de segurança cooperativo de dois LLMs que adapta verificações de segurança no momento da inferência via adaptação em tempo de teste, alcançando 0% de taxa de sucesso em ataques de injeção de prompt e 95,6% de preservação de ações benignas no Safe-OS — em comparação com o GuardAgent e o LLaMA-Guard, que bloqueiam até 49,2% das ações legítimas.
O ShieldAgent (ICML 2025) substitui os guardrails baseados em LLM por circuitos de regras probabilísticas construídos em Redes Lógicas de Markov, alcançando 90,4% de precisão em ataques de agentes com 64,7% menos chamadas de API — e o que isso significa para a segurança verificável em sistemas de IA financeira.
O AuditCopilot aplica LLMs de código aberto (Mistral-8B, Gemma, Llama-3.1) à detecção de fraude em lançamentos contábeis corporativos, reduzindo falsos positivos de 942 para 12 — mas a ablação revela que o LLM funciona principalmente como uma camada de síntese sobre as pontuações de Isolation Forest, não como um detector de anomalias independente.
O artigo sobre IA Constitucional da Anthropic (Bai et al., 2022) treina LLMs para seguir regras usando feedback gerado por IA em vez de rótulos humanos de danos. Este registro de pesquisa examina como o pipeline de crítica-revisão-preferência do RLAIF se mapeia na segurança de gravação para agentes autônomos de livros contábeis Beancount — e como são os riscos de Goodharting, falhas de calibração e uso dual quando a "constituição" é um plano de contas em vez de um conjunto de regras éticas.