Mike Thrift
Marketing Manager
GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código
O GuardAgent (ICML 2025) coloca um agente LLM separado entre um agente de destino e seu ambiente, verificando cada ação proposta por meio da geração e execução de código Python — alcançando 98,7% de precisão na aplicação de políticas, preservando 100% da conclusão de tarefas, versus 81% de precisão e 29–71% de falha em tarefas para regras de segurança incorporadas em prompts.
Debate Multiagente de LLM: Ganhos Reais de Precisão, Computação Descontrolada e Delírio Coletivo
Uma leitura detalhada do artigo de debate multiagente da ICML 2024 de Du et al. — que relata ganhos de precisão de 14,8 pontos em aritmética — juntamente com refutações de 2025 que mostram que agentes únicos com orçamento igual igualam o desempenho do debate, e uma análise de por que o Delírio Coletivo (65% das falhas de debate) apresenta riscos específicos para lançamentos no ledger assistidos por IA.
LLMs Não São Úteis para Previsão de Séries Temporais: O Que o NeurIPS 2024 Significa para a IA Financeira
Um artigo Spotlight do NeurIPS 2024 analisa três métodos de previsão de séries temporais baseados em LLM — OneFitsAll, Time-LLM e CALF — e descobre que a remoção do modelo de linguagem melhora a precisão na maioria dos casos, com uma aceleração de treinamento de até 1.383×. Para aplicações de IA financeira, como a previsão de saldo no Beancount, modelos leves e dedicados superam consistentemente os LLMs adaptados.
AuditCopilot: LLMs para Detecção de Fraude em Contabilidade por Partidas Dobradas
O AuditCopilot aplica LLMs de código aberto (Mistral-8B, Gemma, Llama-3.1) à detecção de fraude em lançamentos contábeis corporativos, reduzindo falsos positivos de 942 para 12 — mas a ablação revela que o LLM funciona principalmente como uma camada de síntese sobre as pontuações de Isolation Forest, não como um detector de anomalias independente.
TAT-LLM: LLaMA 2 Ajustado para Raciocínio Discreto sobre Tabelas e Textos Financeiros
O TAT-LLM realiza o ajuste fino (fine-tuning) do LLaMA 2 7B com LoRA em benchmarks de QA de tabelas e textos financeiros, alcançando 64,60% de EM no FinQA — superando os 63,91% do GPT-4 — ao decompor o raciocínio em etapas determinísticas de Extração-Raciocínio-Execução que eliminam erros aritméticos.
Ajuste Fino vs. RAG: Por Que a Recuperação Vence ao Injetar Novos Conhecimentos em LLMs
Uma comparação empírica de RAG vs. ajuste fino não supervisionado em LLMs de 7 bilhões de parâmetros mostra que o RAG alcança mais de 0,875 de precisão em fatos pós-treinamento, enquanto o ajuste fino estabiliza em 0,504 — com implicações diretas para o design de agentes Beancount e qualquer sistema que exija atualizações frequentes de conhecimento.
IRCoT: Intercalando Recuperação com Cadeia de Pensamento para QA de Múltiplas Etapas
O IRCoT intercala a recuperação BM25 com cada etapa de um loop de raciocínio de cadeia de pensamento, alcançando +11,3 de recall de recuperação e +7,1 de F1 no HotpotQA em relação ao RAG de etapa única — e mostra que um modelo de 3B pode superar o GPT-3 de 175B quando a estratégia de recuperação é adequada.
FLARE: Geração Aumentada por Recuperação Ativa
O FLARE (EMNLP 2023) melhora o RAG padrão ao acionar a recuperação no meio da geração usando limiares de confiança de probabilidade de token, atingindo 51,0 de EM no 2WikiMultihopQA contra 39,4 para recuperação única — mas falhas de calibração em modelos de chat ajustados por instruções limitam sua confiabilidade para agentes financeiros de produção.
Geração Aumentada por Recuperação para Tarefas de PLN com Uso Intensivo de Conhecimento
O artigo de Lewis et al. no NeurIPS 2020 introduziu a arquitetura híbrida RAG — um gerador BART-large pareado com um recuperador indexado por FAISS sobre 21 milhões de passagens da Wikipedia — alcançando 44,5 EM em Natural Questions e estabelecendo a divisão paramétrica/não paramétrica que agora fundamenta a maioria dos sistemas de IA em produção. Esta revisão aborda as compensações entre RAG-Sequence e RAG-Token, o modo de falha de colapso de recuperação e o que índices desatualizados significam para a IA financeira construída em livros contábeis Beancount de acréscimo apenas (append-only).
MultiHiertt: Benchmarking de Raciocínio Numérico em Tabelas Financeiras Multi-Hierárquicas
O MultiHiertt (ACL 2022) apresenta 10.440 pares de QA de relatórios financeiros reais com uma média de 3,89 tabelas hierárquicas cada; modelos de última geração atingem 38% de F1 contra 87% de humanos, com uma penalidade de 15 pontos para perguntas entre tabelas — quantificando a lacuna de recuperação que a IA financeira deve fechar.
ConvFinQA: QA Financeiro de Múltiplos Turnos e a Lacuna de 21 Pontos entre Modelos e Especialistas Humanos
ConvFinQA (EMNLP 2022) estende o FinQA para conversas de múltiplos turnos sobre relatórios de lucros do S&P 500, descobrindo que o melhor modelo ajustado atinge 68,9% de precisão de execução contra 89,4% de especialistas humanos — e cai para 52,4% em conversas híbridas de múltiplos aspectos, onde os modelos devem carregar o contexto numérico entre diferentes tópicos financeiros.
TAT-QA: Benchmark de QA Híbrido de Tabela-Texto para Raciocínio em Relatórios Anuais Financeiros
O TAT-QA é um benchmark de 16.552 perguntas sobre contextos híbridos de tabela e texto em relatórios financeiros que demonstrou que o embasamento em evidências — e não a aritmética — é o principal gargalo na IA financeira; até 2024, LLMs de 7B ajustados alcançaram 83% de F1, fechando a maior parte da lacuna em relação ao teto humano de 91%.