Pular para o conteúdo principal
Reconciliation

Tudo Sobre Reconciliation

10 artigos
Automated ledger reconciliation using language model agents

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

O FinRAGBench-V (EMNLP 2025) é o primeiro benchmark de larga escala para RAG multimodal com citações visuais em finanças, cobrindo mais de 112 mil páginas de documentos e 1.394 pares de perguntas e respostas anotados por humanos. Os principais modelos alcançam apenas 20–61% de recall de citação ao nível de bloco, e a recuperação multimodal supera a de apenas texto em quase 50 pontos percentuais.

Agentes de LLM podem ser CFOs? Simulação de 132 meses do EnterpriseArena revela uma grande lacuna

O EnterpriseArena submete 11 LLMs a uma simulação de CFO de 132 meses, monitorando sobrevivência, avaliação terminal e taxas de fechamento de livros. Apenas o Qwen3.5-9B sobrevive a 80% das execuções; GPT-5.4 e DeepSeek-V3.1 chegam a 0%. Especialistas humanos alcançam 100% de sobrevivência com 5x o valor terminal. O gargalo crítico é que as LLMs ignoram a reconciliação do razão 80% das vezes, agindo com base em estados financeiros obsoletos.

Encontrado no Meio: Calibrar o Viés de Atenção Posicional Melhora o RAG de Contexto Longo

Uma calibração em tempo de inferência, sem necessidade de treinamento, subtrai o viés posicional dos pesos de atenção do LLM, recuperando até 15 pontos percentuais de precisão de RAG quando documentos recuperados estão enterrados no meio do contexto — e o que isso significa para pipelines de agentes financeiros específicos.

Fin-RATE: Como os LLMs falham na análise financeira entre períodos e entre entidades

O Fin-RATE avalia 17 LLMs em 7.500 pares de perguntas e respostas selecionados por especialistas de 2.472 registros da SEC, revelando um colapso de precisão de 18,60% sob rastreamento longitudinal e uma queda de 54 pontos para o Fin-R1 (especializado em finanças) em tarefas entre entidades — com o pipeline de recuperação, e não o modelo de base, como o gargalo limitante.

Voyager: Bibliotecas de Habilidades como Base para o Aprendizado Contínuo de Agentes de IA

Voyager, um agente de Minecraft baseado em GPT-4 da NVIDIA e Caltech, demonstra que uma biblioteca persistente de habilidades de código permite um aprendizado contínuo genuíno sem ajuste fino — descobrindo 3,3 vezes mais itens do que o estado da arte anterior. O padrão mapeia-se diretamente para a automação de livros contábeis Beancount de longo prazo, embora a correção financeira exija camadas de teste que os sandboxes de jogos nunca requerem.

AutoGen: Frameworks de Conversação Multagentes para IA Financeira

O AutoGen (Wu et al., 2023) apresenta um framework de conversação multagentes onde agentes baseados em LLM trocam mensagens para concluir tarefas; uma configuração de dois agentes eleva a precisão no benchmark MATH de 55% para 69%, e um agente SafeGuard dedicado melhora a detecção de código inseguro em até 35 pontos F1 — descobertas diretamente aplicáveis à construção de pipelines de automação seguros e modulares para o Beancount.

CodeAct: Por que Código Python Executável Torna Agentes de LLM 20% Mais Precisos

O CodeAct (ICML 2024) substitui a chamada de ferramentas via JSON por código Python executável, aumentando as taxas de sucesso de agentes GPT-4 em ~20 pontos percentuais em tarefas multi-ferramentas e reduzindo os turnos de interação em 30% — com implicações diretas para a construção de agentes de reconciliação Beancount confiáveis.

ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem

ReAct (Yao et al., ICLR 2023) intercala o raciocínio chain-of-thought com ações de ferramentas em uma única trajetória, superando o CoT puro na verificação de fatos e a aprendizagem por imitação em tarefas corporificadas em 34 pontos percentuais. Esta análise aborda os modos de falha do artigo — distração induzida por busca e erros compostos — e o que eles significam para agentes autônomos que escrevem em livros contábeis do Beancount.