Pular para o conteúdo principal
Trust

Tudo Sobre Trust

8 artigos
Reliability, calibration, and hallucination in financial AI systems

Confiança e Calibração em LLM: Um Levantamento do que a Pesquisa Realmente Mostra

Um levantamento sistemático de métodos de estimativa de confiança e calibração de LLMs — abordagens de logit white-box, SelfCheckGPT baseado em consistência e entropia semântica — revela que as pontuações de confiança verbalizadas do GPT-4 atingem apenas ~62,7% de AUROC, pouco acima do acaso, com implicações diretas para a implantação de agentes cientes de incerteza em finanças e contabilidade.

Diferimento Ciente de Incerteza para Agentes LLM: Quando Escalar de Modelos Pequenos para Grandes

O ReDAct executa um modelo pequeno por padrão e escala para um modelo caro apenas quando a perplexidade em nível de token sinaliza incerteza, alcançando 64% de economia de custos em relação ao uso apenas do GPT-5.2, mantendo ou superando sua precisão — um padrão diretamente aplicável para agentes de categorização de transações no Beancount.

Uso de Ferramentas Verificavelmente Seguro para Agentes de LLM: STPA encontra MCP

Pesquisadores da CMU e NC State propõem o uso da Análise de Processos Teórico-Sistêmica (STPA) e um Protocolo de Contexto de Modelo aprimorado por recursos para derivar especificações formais de segurança para o uso de ferramentas por agentes de LLM, com verificação baseada em Alloy demonstrando a ausência de fluxos inseguros em um estudo de caso de agendamento de calendário.

AGrail: Trilhos de Segurança Adaptativos para Agentes de LLM que Aprendem entre Tarefas

O AGrail (ACL 2025) apresenta um trilho de segurança cooperativo de dois LLMs que adapta verificações de segurança no momento da inferência via adaptação em tempo de teste, alcançando 0% de taxa de sucesso em ataques de injeção de prompt e 95,6% de preservação de ações benignas no Safe-OS — em comparação com o GuardAgent e o LLaMA-Guard, que bloqueiam até 49,2% das ações legítimas.

GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código

O GuardAgent (ICML 2025) coloca um agente LLM separado entre um agente de destino e seu ambiente, verificando cada ação proposta por meio da geração e execução de código Python — alcançando 98,7% de precisão na aplicação de políticas, preservando 100% da conclusão de tarefas, versus 81% de precisão e 29–71% de falha em tarefas para regras de segurança incorporadas em prompts.

PHANTOM (NeurIPS 2025): Medindo a Detecção de Alucinações de LLMs em Documentos Financeiros

O PHANTOM (NeurIPS 2025) é o primeiro benchmark para medir a detecção de alucinações de LLMs em arquivamentos reais da SEC em comprimentos de contexto de até 30.000 tokens. O Qwen3-30B-A3B-Thinking lidera com F1=0,882; modelos de 7B pontuam perto do acaso — com implicações diretas para agentes de contabilidade autônomos.