10 publicações com a etiqueta "Reconciliation"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

O FinRAGBench-V (EMNLP 2025) é o primeiro benchmark de larga escala para RAG multimodal com citações visuais em finanças, cobrindo mais de 112 mil páginas de documentos e 1.394 pares de perguntas e respostas anotados por humanos. Os principais modelos alcançam apenas 20–61% de recall de citação ao nível de bloco, e a recuperação multimodal supera a de apenas texto em quase 50 pontos percentuais.

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Agentes de LLM podem ser CFOs? Simulação de 132 meses do EnterpriseArena revela uma grande lacuna

O EnterpriseArena submete 11 LLMs a uma simulação de CFO de 132 meses, monitorando sobrevivência, avaliação terminal e taxas de fechamento de livros. Apenas o Qwen3.5-9B sobrevive a 80% das execuções; GPT-5.4 e DeepSeek-V3.1 chegam a 0%. Especialistas humanos alcançam 100% de sobrevivência com 5x o valor terminal. O gargalo crítico é que as LLMs ignoram a reconciliação do razão 80% das vezes, agindo com base em estados financeiros obsoletos.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking de Agentes de LLM para Uso de Ferramentas Financeiras no Mundo Real sob MCP

O FinMCP-Bench avalia seis modelos de LLM em 613 tarefas reais de uso de ferramentas financeiras apoiadas por 65 servidores MCP — o melhor modelo obtém 3,08% de correspondência exata em tarefas multiturno, revelando um colapso de desempenho de 20 vezes de cenários de ferramenta única para multiturno.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

Encontrado no Meio: Calibrar o Viés de Atenção Posicional Melhora o RAG de Contexto Longo

Uma calibração em tempo de inferência, sem necessidade de treinamento, subtrai o viés posicional dos pesos de atenção do LLM, recuperando até 15 pontos percentuais de precisão de RAG quando documentos recuperados estão enterrados no meio do contexto — e o que isso significa para pipelines de agentes financeiros específicos.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: Como os LLMs falham na análise financeira entre períodos e entre entidades

O Fin-RATE avalia 17 LLMs em 7.500 pares de perguntas e respostas selecionados por especialistas de 2.472 registros da SEC, revelando um colapso de precisão de 18,60% sob rastreamento longitudinal e uma queda de 54 pontos para o Fin-R1 (especializado em finanças) em tarefas entre entidades — com o pipeline de recuperação, e não o modelo de base, como o gargalo limitante.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: Bibliotecas de Habilidades como Base para o Aprendizado Contínuo de Agentes de IA

Voyager, um agente de Minecraft baseado em GPT-4 da NVIDIA e Caltech, demonstra que uma biblioteca persistente de habilidades de código permite um aprendizado contínuo genuíno sem ajuste fino — descobrindo 3,3 vezes mais itens do que o estado da arte anterior. O padrão mapeia-se diretamente para a automação de livros contábeis Beancount de longo prazo, embora a correção financeira exija camadas de teste que os sandboxes de jogos nunca requerem.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: Frameworks de Conversação Multagentes para IA Financeira

O AutoGen (Wu et al., 2023) apresenta um framework de conversação multagentes onde agentes baseados em LLM trocam mensagens para concluir tarefas; uma configuração de dois agentes eleva a precisão no benchmark MATH de 55% para 69%, e um agente SafeGuard dedicado melhora a detecção de código inseguro em até 35 pontos F1 — descobertas diretamente aplicáveis à construção de pipelines de automação seguros e modulares para o Beancount.

AILLMAutomationMachine LearningBeancountReconciliationPlain-Text Accounting

CodeAct: Por que Código Python Executável Torna Agentes de LLM 20% Mais Precisos

O CodeAct (ICML 2024) substitui a chamada de ferramentas via JSON por código Python executável, aumentando as taxas de sucesso de agentes GPT-4 em ~20 pontos percentuais em tarefas multi-ferramentas e reduzindo os turnos de interação em 30% — com implicações diretas para a construção de agentes de reconciliação Beancount confiáveis.

AILLMMachine LearningAutomationReconciliationFinanceError PreventionTransaction Validation

CRITIC: Por que a Autocorreção de LLM Requer Feedback de Ferramentas Externas

O CRITIC (ICLR 2024) alcança ganhos de 7,7 no F1 em QA de domínio aberto e uma redução de 79,2% na toxicidade ao fundamentar a revisão de LLM em sinais de ferramentas externas — um loop de verificar-e-corrigir que se mapeia diretamente na segurança de gravação para agentes financeiros Beancount.

AILLMMachine LearningAutomationBeancountReconciliationPlain-Text Accounting

ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem

ReAct (Yao et al., ICLR 2023) intercala o raciocínio chain-of-thought com ações de ferramentas em uma única trajetória, superando o CoT puro na verificação de fatos e a aprendizagem por imitação em tarefas corporificadas em 34 pontos percentuais. Esta análise aborda os modos de falha do artigo — distração induzida por busca e erros compostos — e o que eles significam para agentes autônomos que escrevem em livros contábeis do Beancount.

Tudo Sobre Reconciliation

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

Agentes de LLM podem ser CFOs? Simulação de 132 meses do EnterpriseArena revela uma grande lacuna

FinMCP-Bench: Benchmarking de Agentes de LLM para Uso de Ferramentas Financeiras no Mundo Real sob MCP

Encontrado no Meio: Calibrar o Viés de Atenção Posicional Melhora o RAG de Contexto Longo

Fin-RATE: Como os LLMs falham na análise financeira entre períodos e entre entidades

Voyager: Bibliotecas de Habilidades como Base para o Aprendizado Contínuo de Agentes de IA

AutoGen: Frameworks de Conversação Multagentes para IA Financeira

CodeAct: Por que Código Python Executável Torna Agentes de LLM 20% Mais Precisos

CRITIC: Por que a Autocorreção de LLM Requer Feedback de Ferramentas Externas

ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico