O FinanceBench avalia 16 configurações de IA em 10.231 perguntas de registros reais da SEC; o RAG com vector-store compartilhado responde corretamente apenas 19% das vezes, e até mesmo o GPT-4-Turbo com a passagem oráculo alcança apenas 85% de precisão — demonstrando que o raciocínio numérico, e não a recuperação, é a restrição limitante para a IA em finanças corporativas.
O DSPy substitui strings de prompts artesanais por assinaturas declarativas e um compilador orientado por métricas — aumentando o desempenho do Llama2-13b de 9,4% para 46,9% no raciocínio matemático GSM8K e oferecendo um caminho mais sustentável para pipelines de IA financeira em produção.
O LATS (Language Agent Tree Search, ICML 2024) unifica ReAct, Tree of Thoughts e Reflexion em um único framework MCTS, alcançando 92,7% de pass@1 no HumanEval com GPT-4. Para livros contábeis do Beancount baseados em git, o requisito de reversão de estado que limita o LATS em ambientes de produção é trivialmente satisfeito.
O Self-RAG (ICLR 2024 Oral) treina um modelo de linguagem para decidir quando recuperar informações e, em seguida, avaliar seus próprios resultados usando quatro tokens de reflexão — alcançando 55,8% no PopQA e 80,2 de FactScore em biografias, superando o ChatGPT em cinco benchmarks. A análise abrange o mecanismo, resultados de ablação, limites de reprodutibilidade e implicações para agentes de IA financeira sobre livros contábeis do Beancount.
Voyager, um agente de Minecraft baseado em GPT-4 da NVIDIA e Caltech, demonstra que uma biblioteca persistente de habilidades de código permite um aprendizado contínuo genuíno sem ajuste fino — descobrindo 3,3 vezes mais itens do que o estado da arte anterior. O padrão mapeia-se diretamente para a automação de livros contábeis Beancount de longo prazo, embora a correção financeira exija camadas de teste que os sandboxes de jogos nunca requerem.
HippoRAG (NeurIPS 2024) constrói um grafo de conhecimento a partir de triplas OpenIE e aplica o PageRank Personalizado no momento da consulta, atingindo 89,1% de Recall@5 no 2WikiMultiHopQA contra 68,2% do ColBERTv2 — com implicações diretas para a consulta de livros contábeis financeiros complexos em históricos de transações plurianuais.
O AgentBench (Liu et al., ICLR 2024) avalia 27 LLMs em 8 ambientes interativos — o GPT-4 obteve 4,01 no geral contra 0,96 do melhor modelo de código aberto. Os três principais modos de falha (limite de tarefa excedido em 67,9% das falhas de grafo de conhecimento, erros de formato em 53,3% das falhas de banco de dados e ações inválidas) mapeiam-se diretamente nos riscos de implantar um agente de gravação do Beancount em um livro-razão real.
A Bloomberg treinou um LLM de 50 bilhões de parâmetros em 569 bilhões de tokens de dados financeiros e superou modelos gerais em benchmarks de sentimento e raciocínio de tabelas — então o GPT-4 o igualou sem qualquer pré-treinamento específico para finanças. O que o experimento de US$ 10 milhões revela sobre os trade-offs de pré-treinamento de domínio, a tokenização de números e por que o uso de ferramentas é mais confiável do que os componentes internos do modelo para agentes de contabilidade.
O AutoGen (Wu et al., 2023) apresenta um framework de conversação multagentes onde agentes baseados em LLM trocam mensagens para concluir tarefas; uma configuração de dois agentes eleva a precisão no benchmark MATH de 55% para 69%, e um agente SafeGuard dedicado melhora a detecção de código inseguro em até 35 pontos F1 — descobertas diretamente aplicáveis à construção de pipelines de automação seguros e modulares para o Beancount.