Pular para o conteúdo principal

Bean Labs Research Log

FinQA: O Benchmark que Mede o Raciocínio Numérico de IA em Relatórios Financeiros

O FinQA (EMNLP 2021) construiu 8.281 pares de perguntas e respostas a partir de relatórios de lucros do S&P 500 que exigem programas aritméticos de múltiplas etapas. Os modelos neurais pontuaram 61% no lançamento, contra 91% dos especialistas humanos; a precisão cai para 22% em programas de três ou mais etapas. Os modos de falha — constantes de domínio, ancoragem de cross-modality, comprimento da cadeia — mapeiam-se diretamente aos desafios que os agentes Beancount enfrentam hoje.

Latest articles

FinanceBench: Por que o RAG com Vector-Store falha em documentos financeiros reais

O FinanceBench avalia 16 configurações de IA em 10.231 perguntas de registros reais da SEC; o RAG com vector-store compartilhado responde corretamente apenas 19% das vezes, e até mesmo o GPT-4-Turbo com a passagem oráculo alcança apenas 85% de precisão — demonstrando que o raciocínio numérico, e não a recuperação, é a restrição limitante para a IA em finanças corporativas.

LATS: Language Agent Tree Search — Raciocínio, Ação e Planejamento em um Único Framework

O LATS (Language Agent Tree Search, ICML 2024) unifica ReAct, Tree of Thoughts e Reflexion em um único framework MCTS, alcançando 92,7% de pass@1 no HumanEval com GPT-4. Para livros contábeis do Beancount baseados em git, o requisito de reversão de estado que limita o LATS em ambientes de produção é trivialmente satisfeito.

Self-RAG: Recuperação Adaptativa e Autocrítica para LLMs

O Self-RAG (ICLR 2024 Oral) treina um modelo de linguagem para decidir quando recuperar informações e, em seguida, avaliar seus próprios resultados usando quatro tokens de reflexão — alcançando 55,8% no PopQA e 80,2 de FactScore em biografias, superando o ChatGPT em cinco benchmarks. A análise abrange o mecanismo, resultados de ablação, limites de reprodutibilidade e implicações para agentes de IA financeira sobre livros contábeis do Beancount.

Voyager: Bibliotecas de Habilidades como Base para o Aprendizado Contínuo de Agentes de IA

Voyager, um agente de Minecraft baseado em GPT-4 da NVIDIA e Caltech, demonstra que uma biblioteca persistente de habilidades de código permite um aprendizado contínuo genuíno sem ajuste fino — descobrindo 3,3 vezes mais itens do que o estado da arte anterior. O padrão mapeia-se diretamente para a automação de livros contábeis Beancount de longo prazo, embora a correção financeira exija camadas de teste que os sandboxes de jogos nunca requerem.

HippoRAG: Memória de Longo Prazo para LLMs Inspirada na Neurobiologia

HippoRAG (NeurIPS 2024) constrói um grafo de conhecimento a partir de triplas OpenIE e aplica o PageRank Personalizado no momento da consulta, atingindo 89,1% de Recall@5 no 2WikiMultiHopQA contra 68,2% do ColBERTv2 — com implicações diretas para a consulta de livros contábeis financeiros complexos em históricos de transações plurianuais.

AgentBench: Avaliando LLMs como Agentes — Lições para a Confiabilidade da IA em Finanças

O AgentBench (Liu et al., ICLR 2024) avalia 27 LLMs em 8 ambientes interativos — o GPT-4 obteve 4,01 no geral contra 0,96 do melhor modelo de código aberto. Os três principais modos de falha (limite de tarefa excedido em 67,9% das falhas de grafo de conhecimento, erros de formato em 53,3% das falhas de banco de dados e ações inválidas) mapeiam-se diretamente nos riscos de implantar um agente de gravação do Beancount em um livro-razão real.

BloombergGPT e os Limites de LLMs de Domínio Específico em Finanças

A Bloomberg treinou um LLM de 50 bilhões de parâmetros em 569 bilhões de tokens de dados financeiros e superou modelos gerais em benchmarks de sentimento e raciocínio de tabelas — então o GPT-4 o igualou sem qualquer pré-treinamento específico para finanças. O que o experimento de US$ 10 milhões revela sobre os trade-offs de pré-treinamento de domínio, a tokenização de números e por que o uso de ferramentas é mais confiável do que os componentes internos do modelo para agentes de contabilidade.

AutoGen: Frameworks de Conversação Multagentes para IA Financeira

O AutoGen (Wu et al., 2023) apresenta um framework de conversação multagentes onde agentes baseados em LLM trocam mensagens para concluir tarefas; uma configuração de dois agentes eleva a precisão no benchmark MATH de 55% para 69%, e um agente SafeGuard dedicado melhora a detecção de código inseguro em até 35 pontos F1 — descobertas diretamente aplicáveis à construção de pipelines de automação seguros e modulares para o Beancount.