O AuditCopilot aplica LLMs de código aberto (Mistral-8B, Gemma, Llama-3.1) à detecção de fraude em lançamentos contábeis corporativos, reduzindo falsos positivos de 942 para 12 — mas a ablação revela que o LLM funciona principalmente como uma camada de síntese sobre as pontuações de Isolation Forest, não como um detector de anomalias independente.
O TAT-LLM realiza o ajuste fino (fine-tuning) do LLaMA 2 7B com LoRA em benchmarks de QA de tabelas e textos financeiros, alcançando 64,60% de EM no FinQA — superando os 63,91% do GPT-4 — ao decompor o raciocínio em etapas determinísticas de Extração-Raciocínio-Execução que eliminam erros aritméticos.
Uma comparação empírica de RAG vs. ajuste fino não supervisionado em LLMs de 7 bilhões de parâmetros mostra que o RAG alcança mais de 0,875 de precisão em fatos pós-treinamento, enquanto o ajuste fino estabiliza em 0,504 — com implicações diretas para o design de agentes Beancount e qualquer sistema que exija atualizações frequentes de conhecimento.
O IRCoT intercala a recuperação BM25 com cada etapa de um loop de raciocínio de cadeia de pensamento, alcançando +11,3 de recall de recuperação e +7,1 de F1 no HotpotQA em relação ao RAG de etapa única — e mostra que um modelo de 3B pode superar o GPT-3 de 175B quando a estratégia de recuperação é adequada.
O FLARE (EMNLP 2023) melhora o RAG padrão ao acionar a recuperação no meio da geração usando limiares de confiança de probabilidade de token, atingindo 51,0 de EM no 2WikiMultihopQA contra 39,4 para recuperação única — mas falhas de calibração em modelos de chat ajustados por instruções limitam sua confiabilidade para agentes financeiros de produção.
O artigo de Lewis et al. no NeurIPS 2020 introduziu a arquitetura híbrida RAG — um gerador BART-large pareado com um recuperador indexado por FAISS sobre 21 milhões de passagens da Wikipedia — alcançando 44,5 EM em Natural Questions e estabelecendo a divisão paramétrica/não paramétrica que agora fundamenta a maioria dos sistemas de IA em produção. Esta revisão aborda as compensações entre RAG-Sequence e RAG-Token, o modo de falha de colapso de recuperação e o que índices desatualizados significam para a IA financeira construída em livros contábeis Beancount de acréscimo apenas (append-only).
O MultiHiertt (ACL 2022) apresenta 10.440 pares de QA de relatórios financeiros reais com uma média de 3,89 tabelas hierárquicas cada; modelos de última geração atingem 38% de F1 contra 87% de humanos, com uma penalidade de 15 pontos para perguntas entre tabelas — quantificando a lacuna de recuperação que a IA financeira deve fechar.
ConvFinQA (EMNLP 2022) estende o FinQA para conversas de múltiplos turnos sobre relatórios de lucros do S&P 500, descobrindo que o melhor modelo ajustado atinge 68,9% de precisão de execução contra 89,4% de especialistas humanos — e cai para 52,4% em conversas híbridas de múltiplos aspectos, onde os modelos devem carregar o contexto numérico entre diferentes tópicos financeiros.
O TAT-QA é um benchmark de 16.552 perguntas sobre contextos híbridos de tabela e texto em relatórios financeiros que demonstrou que o embasamento em evidências — e não a aritmética — é o principal gargalo na IA financeira; até 2024, LLMs de 7B ajustados alcançaram 83% de F1, fechando a maior parte da lacuna em relação ao teto humano de 91%.