FinAuditing: LLMs Pontuam Abaixo de 14% em Tarefas Reais de Auditoria SEC XBRL
O FinAuditing avalia LLMs em relação à complexidade estruturada de arquivamentos reais da SEC XBRL — não os pares de QA polidos que dominam os quadros de líderes de PLN financeiro. Estou lendo isso agora porque a agenda de auditoria do Bean Labs continua voltando a uma pergunta que os benchmarks existentes não podem responder: um modelo pode manter um arquivamento estruturado inteiro na memória e verificar sua consistência interna?
O artigo
Wang et al. introduzem o FinAuditing, um benchmark de 1.102 instâncias extraídas de 218 arquivamentos XBRL no SEC EDGAR, cobrindo tipos de erro catalogados pelo Comitê de Qualidade de Dados (DQC) da XBRL US. XBRL é o formato legível por máquina que a SEC exige para todos os arquivamentos de empresas públicas; cada arquivamento agrupa um documento de instância (números relatados), um esquema de taxonomia (conceitos contábeis válidos) e quatro linkbases — cálculo, apresentação, definição e rótulo — que especificam como os conceitos se relacionam entre si. O benchmark operacionaliza três subtarefas de auditoria: Correspondência Semântica Financeira (FinSM, recuperar o conceito de taxonomia correto para um fato relatado), Extração de Relação Financeira (FinRE, classificar a relação entre dois nós da taxonomia) e Raciocínio Matemático Financeiro (FinMR, verificar se as figuras relatadas satisfazem as regras de cálculo definidas pela taxonomia). As instâncias têm em média 33.848 tokens — no limite ou além do limite de contexto efetivo de muitos modelos de código aberto — e todos os 13 modelos são testados em modo zero-shot.
Ideias principais
- FinSM é essencialmente recuperação de taxonomia: dado um fato no arquivamento, encontrar o conceito US-GAAP correto. O DeepSeek-V3 lidera o campo com 12,42% de Hit Rate@20 — menos de um em cada oito palpites corretos ao escolher entre 20 candidatos. O GPT-4o consegue 9,09%.
- FinRE (classificação de relações de linkbase) é a tarefa mais fácil: o GPT-4o atinge 91,82% de precisão e 90,09 de Macro F1. Mas o Qwen3-32B e o Fino1-14B — ambos comercializados como capazes para finanças — pontuam 0,00%, aparentemente falhando no tipo de relação CombinationErr.
- FinMR é brutal: o Fino1-14B lidera com 13,86% de precisão; a maioria dos modelos fica em dígitos únicos. A análise de erros atribui 70–83% das falhas a erros aritméticos em regras de cálculo de várias etapas, com erros de formatação estrutural representando 9–71%, dependendo do modelo.
- Os dados de origem são 4.545 mensagens de erro do DQC de arquivamentos reais (2020–2024) — não exemplos adversários sintéticos. O benchmark seleciona os 9 tipos de erro mais frequentes, cobrindo 60,33% das violações reais do DQC.
- Modelos especializados no domínio (Fino1-14B, FinR1) não superam sistematicamente os modelos de grande porte de propósito geral; o Fino1-14B lidera apenas no FinMR, e mesmo lá seus 13,86% estão pouco acima do ruído.
O que se sustenta — e o que não se sustenta
O benchmark é valioso precisamente porque escapa do formato de par de QA: o sucesso requer a compreensão das relações de linkbase, não apenas a correspondência de uma pergunta a um trecho de texto. Basear a construção da instância em violações do DQC torna-o reproduzível e diretamente ligado ao processo de auditoria real.
Dito isso, tenho ressalvas. Os resultados do FinRE são intrigantes: o GPT-4o com 91,82% enquanto modelos capazes no domínio colapsam para 0,00% é uma variação que quase certamente reflete sensibilidade ao prompt e incompatibilidade de formato de saída, em vez de habilidade de raciocínio genuína. O artigo testa todos os modelos zero-shot sem ablação do formato do prompt ou fornecimento de baselines few-shot, tornando impossível atribuir as pontuações de 0,00% à inteligência em vez de falhas de processamento (parsing). O framework de LLM como juiz usado para o FinMR introduz outra camada de ruído na avaliação.
A afirmação principal — "quedas de precisão de 60–90% sobre estruturas hierárquicas multidocumento" — também precisa de uma base mais clara. Não é óbvio se isso se compara ao desempenho humano, a versões de documento único das mesmas tarefas ou a variantes achatadas (não hierárquicas). A direção está correta, mas sem esse baseline a magnitude é difícil de interpretar.
Por que isso importa para a IA nas finanças
Arquivos Beancount não são XBRL, mas compartilham propriedades estruturais fundamentais: um namespace de contas hierárquico análogo ao esquema de taxonomia, restrições de partida dobrada que devem equilibrar de forma análoga às linkbases de cálculo, e entradas tipadas que referenciam categorias canônicas análogas à correspondência de conceito para instância. O modo de falha do FinMR — modelos cometendo erros aritméticos em regras de cálculo de várias etapas — é exatamente o que importa para a verificação de saldo no Beancount. Se o GPT-4o não consegue verificar confiavelmente se as árvores de adição US-GAAP somam corretamente em um arquivamento XBRL, ele quase certamente não pode ser confiável para verificar hierarquias de contas complexas em um livro-razão sem delegar a aritmética a uma ferramenta externa (estilo PAL).
Os números do FinSM são um aviso direto para qualquer agente Beancount que mapeia nomes de contas digitados pelo usuário ou descrições de transações para um plano de contas canônico. Mesmo o melhor modelo recupera o conceito correto menos de 13% das vezes na posição 20. A recuperação baseada em ranking não está nem perto de estar pronta para produção sem um recuperador especializado ou ajuste fino (fine-tuning) na taxonomia de destino.
O não-resultado para modelos especializados no domínio é instrutivo: a escala bruta e o prompt estruturado ainda determinam os resultados mais do que o pré-treinamento financeiro para esta classe de tarefa de raciocínio estruturado.
O que ler a seguir
- From Local to Global: A Graph RAG Approach to Query-Focused Summarization (arXiv:2404.16130) — a estrutura hierárquica da linkbase XBRL é exatamente o tipo de grafo sobre documentos que o GraphRAG da Microsoft visa; vale a leitura como uma resposta arquitetural às falhas de recuperação do FinAuditing.
- FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information (arXiv:2505.20650) — de autores sobrepostos, foca no mapeamento de fatos financeiros para conceitos de taxonomia (a tarefa a montante antes da auditoria); complementa o escopo do FinAuditing.
- Towards Verifiably Safe Tool Use for LLM Agents (arXiv:2601.08012) — se os modelos não conseguem verificar cálculos de forma confiável em modo zero-shot, a resposta pode ser ferramentas de verificação formal em camadas sobre as ações do agente, em vez de prompts melhores.
