Pular para o conteúdo principal

FinBen: Avaliando LLMs em 36 Tarefas Financeiras — Implicações para IA de Contabilidade

· 6 min para ler
Tian Pan
Research Engineer

O FinBen chegou ao NeurIPS 2024 como a avaliação pública mais abrangente de LLMs em tarefas financeiras até o momento. Eu estava querendo ler o artigo cuidadosamente porque, antes de projetar qualquer agente autônomo sobre livros razão Beancount, preciso de uma imagem realista de onde os modelos de fronteira realmente se posicionam nas tarefas de raciocínio financeiro que tal agente precisaria realizar.

O artigo

2026-04-15-finben-financial-llm-benchmark

Qianqian Xie e 33 coautores apresentam o FinBen, um benchmark de código aberto que cobre 36 conjuntos de dados em 24 tarefas financeiras, organizadas em sete dimensões: extração de informações, análise textual, questionamento e resposta (QA), geração de texto, gestão de risco, previsão e tomada de decisão. Eles avaliam 15 LLMs representativos — incluindo GPT-4, ChatGPT, Gemini e vários modelos de código aberto ajustados por instruções — e introduzem três novos conjuntos de dados para avaliação de sumarização, QA e negociação de ações.

A motivação central é que benchmarks financeiros anteriores, como o FLUE e o FLARE, capturavam apenas uma fatia do NLP financeiro, mas nada perto de todo o fluxo de trabalho. O FinBen é a primeira tentativa de abranger toda a estrutura em um só lugar, e foi aceito na Trilha de Conjuntos de Dados e Benchmarks do NeurIPS 2024, o que lhe confere um selo razoável de escrutínio metodológico.

Ideias-chave

  • Em reconhecimento de entidades nomeadas (NER), o GPT-4 atinge 0,83 de Entity F1 no conjunto de dados FINER-ORD — um resultado sólido, mas esta é a categoria mais fácil do benchmark.
  • No FinQA (raciocínio numérico sobre relatórios financeiros), o GPT-4 alcança 0,63 de Correspondência Exata; na variante conversacional ConvFinQA, ele atinge 0,76. São resultados respeitáveis, mas longe de estarem resolvidos.
  • O FinMA 7B, ajustado especificamente para o domínio, alcança 0,88 de F1 no sentimento FPB — superando o GPT-4 nesta tarefa específica, confirmando que o ajuste fino (fine-tuning) ainda traz ganhos em classificações bem definidas.
  • A previsão de movimentação de ações é o modo de falha mais claro: até o GPT-4 atinge cerca de 0,54 de precisão — pouco acima do acaso. Os autores chamam isso de "uma deficiência notável na capacidade dos LLMs de lidar com previsões".
  • O GPT-4 atinge um Índice de Sharpe de 1,51 na tarefa de negociação, contra 1,03 do Gemini, e um retorno cumulativo de 28,19% contra um retorno de −4,00% na estratégia de "comprar e manter" (buy-and-hold) durante o período de avaliação — mas este é um backtest curto com todas as ressalvas usuais.
  • Todos os modelos pontuaram zero em sumarização extrativa, e o GPT-4 pontuou 0,01 de F1 em extração de relações. As capacidades colapsam drasticamente fora da zona de conforto da classificação de texto e geração aberta.

O que se sustenta — e o que não se sustenta

O benchmark é genuinamente útil como um instrumento de pesquisa. A gama de tarefas é mais ampla do que qualquer coisa que veio antes, e o lançamento em código aberto significa que outros podem construir sobre a infraestrutura de avaliação em vez de começar do zero.

Dito isso, tenho preocupações reais sobre o que o FinBen pode realmente nos dizer. O período de avaliação de negociação é curto e específico do mercado; um Índice de Sharpe computado ao longo de alguns meses em ações dos EUA não é um sinal estável. As pontuações zero em sumarização extrativa nos dizem que algo está quebrado, mas o artigo não diagnostica o porquê — é um problema de formato de prompt, um artefato de tokenização ou uma falha de raciocínio genuína? A distinção importa para quem tenta corrigir.

O benchmark também é quase inteiramente focado em inglês e no mercado dos EUA. Isso não é apenas uma ressalva de generalização; significa que os resultados dizem muito pouco sobre o desempenho em documentos financeiros alemães ou chineses, por exemplo, ou em jurisdições com normas contábeis diferentes. Para um projeto como o Beancount.io, que atende a uma base de usuários global, essa é uma lacuna significativa.

A história do modelo ajustado por instruções também é mais complexa do que parece à primeira vista. O ajuste fino ajuda no sentimento (FinMA 7B em 0,88), mas "fornece apenas melhorias marginais para tarefas complexas como QA". O artigo relata isso como uma descoberta, mas não oferece uma explicação mecânica. Seria um esquecimento catastrófico na capacidade de raciocínio do modelo base? A distribuição dos dados de ajuste fino seria muito estreita? A superfície do benchmark sozinha não pode responder a isso.

Por que isso importa para a IA nas finanças

Os resultados do FinBen dão ao Bean Labs uma base de referência mais clara do que tínhamos antes. As tarefas mais relevantes para um agente de livro razão Beancount — QA numérico sobre relatórios financeiros estruturados (FinQA: 0,63 de Correspondência Exata), extração de informações de descrições de transações (NER: 0,83 de F1) e detecção de anomalias ou classificação de fraudes (tarefas de gestão de risco mostrando grande variância) — estão todas representadas aqui, e nenhuma delas está resolvida.

O colapso na previsão (0,54 na movimentação de ações) é, na verdade, tranquilizador para o nosso caso de uso mais restrito: não estamos pedindo aos modelos para prever mercados, estamos pedindo que classifiquem, extraiam e escrevam lançamentos estruturados de volta. Essas tarefas ficam na faixa de 0,63 a 0,83, dependendo da complexidade, o que é uma base de trabalho viável — embora "viável" não signifique "seguro para produção sem revisão humana".

A lacuna entre a extração estruturada e o raciocínio aberto também se mapeia diretamente no problema de segurança da escrita (write-back). Se um modelo pode extrair confiavelmente uma entidade (F1 de 0,83), mas tem dificuldade em raciocinar sobre suas implicações numéricas (FinQA 0,63) ou gerar uma saída estruturada correta (extração de relações: 0,01), então a arquitetura mais segura mantém essas etapas separadas, com validação explícita entre elas.

O que ler a seguir

  • FinMaster (arXiv:2505.13533) — avalia explicitamente fluxos de trabalho contábeis de ponta a ponta, incluindo lançamentos de diário e reconciliação; mais próximo da tarefa do Beancount do que qualquer coisa no FinBen.
  • "Table Meets LLM: Can Large Language Models Understand Structured Table Data?" (arXiv:2305.13062, WSDM 2024) — Os livros razão Beancount são essencialmente tabelas estruturadas; este artigo avalia exatamente as capacidades de compreensão estrutural que fundamentam qualquer agente de leitura de livros razão.
  • ReAct: Synergizing Reasoning and Acting in Language Models (arXiv:2210.03629) — o framework de raciocínio e ação intercalados é o que a maioria dos agentes de atualização usaria; entender seus modos de falha importa mais agora que o FinBen mostrou onde o piso do raciocínio realmente está.