4 publicações com a etiqueta "Transaction Validation"

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

LLMs pontuam 2,3% na Geração de DSL Beancount: O Benchmark LLMFinLiteracy

O benchmark LLMFinLiteracy revela que cinco modelos de pesos abertos de ~7B geram transações Beancount totalmente corretas apenas 2,3% das vezes, com falhas concentradas no raciocínio contábil — não na sintaxe — apontando o feedback do compilador no loop como o ingrediente crítico que falta para agentes de gravação confiáveis.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código

O GuardAgent (ICML 2025) coloca um agente LLM separado entre um agente de destino e seu ambiente, verificando cada ação proposta por meio da geração e execução de código Python — alcançando 98,7% de precisão na aplicação de políticas, preservando 100% da conclusão de tarefas, versus 81% de precisão e 29–71% de falha em tarefas para regras de segurança incorporadas em prompts.

AILLMMachine LearningAutomationBeancountTransaction Validation

Debate Multiagente de LLM: Ganhos Reais de Precisão, Computação Descontrolada e Delírio Coletivo

Uma leitura detalhada do artigo de debate multiagente da ICML 2024 de Du et al. — que relata ganhos de precisão de 14,8 pontos em aritmética — juntamente com refutações de 2025 que mostram que agentes únicos com orçamento igual igualam o desempenho do debate, e uma análise de por que o Delírio Coletivo (65% das falhas de debate) apresenta riscos específicos para lançamentos no ledger assistidos por IA.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Por que a Autocorreção de LLM Requer Feedback de Ferramentas Externas

O CRITIC (ICLR 2024) alcança ganhos de 7,7 no F1 em QA de domínio aberto e uma redução de 79,2% na toxicidade ao fundamentar a revisão de LLM em sinais de ferramentas externas — um loop de verificar-e-corrigir que se mapeia diretamente na segurança de gravação para agentes financeiros Beancount.

Tudo Sobre Transaction Validation

LLMs pontuam 2,3% na Geração de DSL Beancount: O Benchmark LLMFinLiteracy

GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código

Debate Multiagente de LLM: Ganhos Reais de Precisão, Computação Descontrolada e Delírio Coletivo

CRITIC: Por que a Autocorreção de LLM Requer Feedback de Ferramentas Externas

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico