Pular para o conteúdo principal
Transaction Validation

Tudo Sobre Transaction Validation

4 artigos
Validating and verifying financial transactions using language model agents

LLMs pontuam 2,3% na Geração de DSL Beancount: O Benchmark LLMFinLiteracy

O benchmark LLMFinLiteracy revela que cinco modelos de pesos abertos de ~7B geram transações Beancount totalmente corretas apenas 2,3% das vezes, com falhas concentradas no raciocínio contábil — não na sintaxe — apontando o feedback do compilador no loop como o ingrediente crítico que falta para agentes de gravação confiáveis.

GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código

O GuardAgent (ICML 2025) coloca um agente LLM separado entre um agente de destino e seu ambiente, verificando cada ação proposta por meio da geração e execução de código Python — alcançando 98,7% de precisão na aplicação de políticas, preservando 100% da conclusão de tarefas, versus 81% de precisão e 29–71% de falha em tarefas para regras de segurança incorporadas em prompts.

Debate Multiagente de LLM: Ganhos Reais de Precisão, Computação Descontrolada e Delírio Coletivo

Uma leitura detalhada do artigo de debate multiagente da ICML 2024 de Du et al. — que relata ganhos de precisão de 14,8 pontos em aritmética — juntamente com refutações de 2025 que mostram que agentes únicos com orçamento igual igualam o desempenho do debate, e uma análise de por que o Delírio Coletivo (65% das falhas de debate) apresenta riscos específicos para lançamentos no ledger assistidos por IA.