Pular para o conteúdo principal

Bean Labs Research Log

LLMs Não São Úteis para Previsão de Séries Temporais: O Que o NeurIPS 2024 Significa para a IA Financeira

Um artigo Spotlight do NeurIPS 2024 analisa três métodos de previsão de séries temporais baseados em LLM — OneFitsAll, Time-LLM e CALF — e descobre que a remoção do modelo de linguagem melhora a precisão na maioria dos casos, com uma aceleração de treinamento de até 1.383×. Para aplicações de IA financeira, como a previsão de saldo no Beancount, modelos leves e dedicados superam consistentemente os LLMs adaptados.

Latest articles

AuditCopilot: LLMs para Detecção de Fraude em Contabilidade por Partidas Dobradas

O AuditCopilot aplica LLMs de código aberto (Mistral-8B, Gemma, Llama-3.1) à detecção de fraude em lançamentos contábeis corporativos, reduzindo falsos positivos de 942 para 12 — mas a ablação revela que o LLM funciona principalmente como uma camada de síntese sobre as pontuações de Isolation Forest, não como um detector de anomalias independente.

Ajuste Fino vs. RAG: Por Que a Recuperação Vence ao Injetar Novos Conhecimentos em LLMs

Uma comparação empírica de RAG vs. ajuste fino não supervisionado em LLMs de 7 bilhões de parâmetros mostra que o RAG alcança mais de 0,875 de precisão em fatos pós-treinamento, enquanto o ajuste fino estabiliza em 0,504 — com implicações diretas para o design de agentes Beancount e qualquer sistema que exija atualizações frequentes de conhecimento.

IRCoT: Intercalando Recuperação com Cadeia de Pensamento para QA de Múltiplas Etapas

O IRCoT intercala a recuperação BM25 com cada etapa de um loop de raciocínio de cadeia de pensamento, alcançando +11,3 de recall de recuperação e +7,1 de F1 no HotpotQA em relação ao RAG de etapa única — e mostra que um modelo de 3B pode superar o GPT-3 de 175B quando a estratégia de recuperação é adequada.

FLARE: Geração Aumentada por Recuperação Ativa

O FLARE (EMNLP 2023) melhora o RAG padrão ao acionar a recuperação no meio da geração usando limiares de confiança de probabilidade de token, atingindo 51,0 de EM no 2WikiMultihopQA contra 39,4 para recuperação única — mas falhas de calibração em modelos de chat ajustados por instruções limitam sua confiabilidade para agentes financeiros de produção.

Geração Aumentada por Recuperação para Tarefas de PLN com Uso Intensivo de Conhecimento

O artigo de Lewis et al. no NeurIPS 2020 introduziu a arquitetura híbrida RAG — um gerador BART-large pareado com um recuperador indexado por FAISS sobre 21 milhões de passagens da Wikipedia — alcançando 44,5 EM em Natural Questions e estabelecendo a divisão paramétrica/não paramétrica que agora fundamenta a maioria dos sistemas de IA em produção. Esta revisão aborda as compensações entre RAG-Sequence e RAG-Token, o modo de falha de colapso de recuperação e o que índices desatualizados significam para a IA financeira construída em livros contábeis Beancount de acréscimo apenas (append-only).

MultiHiertt: Benchmarking de Raciocínio Numérico em Tabelas Financeiras Multi-Hierárquicas

O MultiHiertt (ACL 2022) apresenta 10.440 pares de QA de relatórios financeiros reais com uma média de 3,89 tabelas hierárquicas cada; modelos de última geração atingem 38% de F1 contra 87% de humanos, com uma penalidade de 15 pontos para perguntas entre tabelas — quantificando a lacuna de recuperação que a IA financeira deve fechar.

ConvFinQA: QA Financeiro de Múltiplos Turnos e a Lacuna de 21 Pontos entre Modelos e Especialistas Humanos

ConvFinQA (EMNLP 2022) estende o FinQA para conversas de múltiplos turnos sobre relatórios de lucros do S&P 500, descobrindo que o melhor modelo ajustado atinge 68,9% de precisão de execução contra 89,4% de especialistas humanos — e cai para 52,4% em conversas híbridas de múltiplos aspectos, onde os modelos devem carregar o contexto numérico entre diferentes tópicos financeiros.

TAT-QA: Benchmark de QA Híbrido de Tabela-Texto para Raciocínio em Relatórios Anuais Financeiros

O TAT-QA é um benchmark de 16.552 perguntas sobre contextos híbridos de tabela e texto em relatórios financeiros que demonstrou que o embasamento em evidências — e não a aritmética — é o principal gargalo na IA financeira; até 2024, LLMs de 7B ajustados alcançaram 83% de F1, fechando a maior parte da lacuna em relação ao teto humano de 91%.