Bean Labs Research Log

Fraud DetectionLLMDouble-EntryJournal EntriesAIMachine LearningComplianceBookkeeping

AuditCopilot: LLMs para Detecção de Fraude em Contabilidade por Partidas Dobradas

O AuditCopilot aplica LLMs de código aberto (Mistral-8B, Gemma, Llama-3.1) à detecção de fraude em lançamentos contábeis corporativos, reduzindo falsos positivos de 942 para 12 — mas a ablação revela que o LLM funciona principalmente como uma camada de síntese sobre as pontuações de Isolation Forest, não como um detector de anomalias independente.

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: LLaMA 2 Ajustado para Raciocínio Discreto sobre Tabelas e Textos Financeiros

O TAT-LLM realiza o ajuste fino (fine-tuning) do LLaMA 2 7B com LoRA em benchmarks de QA de tabelas e textos financeiros, alcançando 64,60% de EM no FinQA — superando os 63,91% do GPT-4 — ao decompor o raciocínio em etapas determinísticas de Extração-Raciocínio-Execução que eliminam erros aritméticos.

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

Ajuste Fino vs. RAG: Por Que a Recuperação Vence ao Injetar Novos Conhecimentos em LLMs

Uma comparação empírica de RAG vs. ajuste fino não supervisionado em LLMs de 7 bilhões de parâmetros mostra que o RAG alcança mais de 0,875 de precisão em fatos pós-treinamento, enquanto o ajuste fino estabiliza em 0,504 — com implicações diretas para o design de agentes Beancount e qualquer sistema que exija atualizações frequentes de conhecimento.

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT: Intercalando Recuperação com Cadeia de Pensamento para QA de Múltiplas Etapas

O IRCoT intercala a recuperação BM25 com cada etapa de um loop de raciocínio de cadeia de pensamento, alcançando +11,3 de recall de recuperação e +7,1 de F1 no HotpotQA em relação ao RAG de etapa única — e mostra que um modelo de 3B pode superar o GPT-3 de 175B quando a estratégia de recuperação é adequada.

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE: Geração Aumentada por Recuperação Ativa

O FLARE (EMNLP 2023) melhora o RAG padrão ao acionar a recuperação no meio da geração usando limiares de confiança de probabilidade de token, atingindo 51,0 de EM no 2WikiMultihopQA contra 39,4 para recuperação única — mas falhas de calibração em modelos de chat ajustados por instruções limitam sua confiabilidade para agentes financeiros de produção.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancount

Geração Aumentada por Recuperação para Tarefas de PLN com Uso Intensivo de Conhecimento

O artigo de Lewis et al. no NeurIPS 2020 introduziu a arquitetura híbrida RAG — um gerador BART-large pareado com um recuperador indexado por FAISS sobre 21 milhões de passagens da Wikipedia — alcançando 44,5 EM em Natural Questions e estabelecendo a divisão paramétrica/não paramétrica que agora fundamenta a maioria dos sistemas de IA em produção. Esta revisão aborda as compensações entre RAG-Sequence e RAG-Token, o modo de falha de colapso de recuperação e o que índices desatualizados significam para a IA financeira construída em livros contábeis Beancount de acréscimo apenas (append-only).

AIMachine LearningLLMFinancial ReportingFinancial StatementsData ScienceFinance

MultiHiertt: Benchmarking de Raciocínio Numérico em Tabelas Financeiras Multi-Hierárquicas

O MultiHiertt (ACL 2022) apresenta 10.440 pares de QA de relatórios financeiros reais com uma média de 3,89 tabelas hierárquicas cada; modelos de última geração atingem 38% de F1 contra 87% de humanos, com uma penalidade de 15 pontos para perguntas entre tabelas — quantificando a lacuna de recuperação que a IA financeira deve fechar.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: QA Financeiro de Múltiplos Turnos e a Lacuna de 21 Pontos entre Modelos e Especialistas Humanos

ConvFinQA (EMNLP 2022) estende o FinQA para conversas de múltiplos turnos sobre relatórios de lucros do S&P 500, descobrindo que o melhor modelo ajustado atinge 68,9% de precisão de execução contra 89,4% de especialistas humanos — e cai para 52,4% em conversas híbridas de múltiplos aspectos, onde os modelos devem carregar o contexto numérico entre diferentes tópicos financeiros.

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA: Benchmark de QA Híbrido de Tabela-Texto para Raciocínio em Relatórios Anuais Financeiros

O TAT-QA é um benchmark de 16.552 perguntas sobre contextos híbridos de tabela e texto em relatórios financeiros que demonstrou que o embasamento em evidências — e não a aritmética — é o principal gargalo na IA financeira; até 2024, LLMs de 7B ajustados alcançaram 83% de F1, fechando a maior parte da lacuna em relação ao teto humano de 91%.

LLMs Não São Úteis para Previsão de Séries Temporais: O Que o NeurIPS 2024 Significa para a IA Financeira

Latest articles

AuditCopilot: LLMs para Detecção de Fraude em Contabilidade por Partidas Dobradas

TAT-LLM: LLaMA 2 Ajustado para Raciocínio Discreto sobre Tabelas e Textos Financeiros

Ajuste Fino vs. RAG: Por Que a Recuperação Vence ao Injetar Novos Conhecimentos em LLMs

IRCoT: Intercalando Recuperação com Cadeia de Pensamento para QA de Múltiplas Etapas

FLARE: Geração Aumentada por Recuperação Ativa

Geração Aumentada por Recuperação para Tarefas de PLN com Uso Intensivo de Conhecimento

MultiHiertt: Benchmarking de Raciocínio Numérico em Tabelas Financeiras Multi-Hierárquicas

ConvFinQA: QA Financeiro de Múltiplos Turnos e a Lacuna de 21 Pontos entre Modelos e Especialistas Humanos

TAT-QA: Benchmark de QA Híbrido de Tabela-Texto para Raciocínio em Relatórios Anuais Financeiros

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico