89 publicações com a etiqueta "AI"

AILLMMachine LearningFinanceFinancial ReportingData ScienceReconciliationBeancount

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

O FinRAGBench-V (EMNLP 2025) é o primeiro benchmark de larga escala para RAG multimodal com citações visuais em finanças, cobrindo mais de 112 mil páginas de documentos e 1.394 pares de perguntas e respostas anotados por humanos. Os principais modelos alcançam apenas 20–61% de recall de citação ao nível de bloco, e a recuperação multimodal supera a de apenas texto em quase 50 pontos percentuais.

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

Agentes de LLM podem ser CFOs? Simulação de 132 meses do EnterpriseArena revela uma grande lacuna

O EnterpriseArena submete 11 LLMs a uma simulação de CFO de 132 meses, monitorando sobrevivência, avaliação terminal e taxas de fechamento de livros. Apenas o Qwen3.5-9B sobrevive a 80% das execuções; GPT-5.4 e DeepSeek-V3.1 chegam a 0%. Especialistas humanos alcançam 100% de sobrevivência com 5x o valor terminal. O gargalo crítico é que as LLMs ignoram a reconciliação do razão 80% das vezes, agindo com base em estados financeiros obsoletos.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Por que nenhum LLM excede 15% de acurácia de sessão no uso de ferramentas no mundo real

O WildToolBench (ICLR 2026) avalia 57 LLMs em 1.024 tarefas extraídas do comportamento real do usuário — nenhum modelo excede 15% de acurácia de sessão, com a orquestração composicional, intenção oculta e transições de instrução como os três modos de falha mais acentuados.

LLMAIMachine LearningTrustFinanceData ScienceHallucination Detection

Confiança e Calibração em LLM: Um Levantamento do que a Pesquisa Realmente Mostra

Um levantamento sistemático de métodos de estimativa de confiança e calibração de LLMs — abordagens de logit white-box, SelfCheckGPT baseado em consistência e entropia semântica — revela que as pontuações de confiança verbalizadas do GPT-4 atingem apenas ~62,7% de AUROC, pouco acima do acaso, com implicações diretas para a implantação de agentes cientes de incerteza em finanças e contabilidade.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: Complexidade de Esquemas do Mundo Real Quebra Garantias de Saída Estruturada de LLMs

O JSONSchemaBench testa 9.558 esquemas JSON do mundo real contra seis frameworks de decodificação restrita e descobre que a complexidade do esquema faz com que a cobertura desmorone de 86% em esquemas simples para 3% em esquemas complexos, com o XGrammar emitindo silenciosamente 38 saídas não conformes e nenhum framework cobrindo todas as 45 categorias de recursos do JSON Schema.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: Benchmarking de Agentes de LLM para Uso de Ferramentas Financeiras no Mundo Real sob MCP

O FinMCP-Bench avalia seis modelos de LLM em 613 tarefas reais de uso de ferramentas financeiras apoiadas por 65 servidores MCP — o melhor modelo obtém 3,08% de correspondência exata em tarefas multiturno, revelando um colapso de desempenho de 20 vezes de cenários de ferramenta única para multiturno.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: Avaliação em Nível de Trajetória de Chamada de Ferramentas de LLM para Tarefas Financeiras

O FinTrace avalia 13 LLMs em 800 trajetórias de tarefas financeiras anotadas por especialistas em 9 métricas, revelando que modelos de fronteira alcançam uma forte seleção de ferramentas (F1 ~0,9), mas pontuam apenas 3,23/5 na utilização de informações — a etapa em que os agentes raciocinam sobre o que as ferramentas retornam.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real

O FinToolBench combina 760 ferramentas de API financeira reais com 295 consultas executáveis para avaliar agentes de LLM em tarefas financeiras do mundo real — revelando que a taxa de invocação conservadora de 22,7% do GPT-4o gera uma qualidade de resposta superior (CSS 0,670) em comparação com a TIR agressiva de 87,1% do Qwen3-8B, enquanto o desajuste de intenção ultrapassa 50% em todos os modelos testados.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: Benchmark de Avaliação de RAG Omnidirecional para o Domínio Financeiro

O OmniEval (EMNLP 2025) avalia sistemas RAG em 5 tipos de tarefas × 16 tópicos financeiros usando 11,4 mil casos de teste gerados automaticamente. Os melhores sistemas alcançam apenas 36% de precisão numérica — evidência concreta de que os pipelines de RAG precisam de camadas de validação antes de escrever em livros contábeis estruturados.

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

Levantamento sobre Detecção de Anomalias com LLM (NAACL 2025): Taxonomia Forte, Cobertura Tabular Ausente

Uma leitura crítica do levantamento de Ruiyao Xu e Kaize Ding para a NAACL 2025 sobre detecção de anomalias e OOD baseada em LLM; a taxonomia detecção-vs-geração se sustenta, mas a ausência quase total de cobertura tabular significa que profissionais de IA financeira devem sintetizar insights de modelos de visão por conta própria.

Tudo Sobre AI

FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro

Agentes de LLM podem ser CFOs? Simulação de 132 meses do EnterpriseArena revela uma grande lacuna

WildToolBench: Por que nenhum LLM excede 15% de acurácia de sessão no uso de ferramentas no mundo real

Confiança e Calibração em LLM: Um Levantamento do que a Pesquisa Realmente Mostra

JSONSchemaBench: Complexidade de Esquemas do Mundo Real Quebra Garantias de Saída Estruturada de LLMs

FinMCP-Bench: Benchmarking de Agentes de LLM para Uso de Ferramentas Financeiras no Mundo Real sob MCP

FinTrace: Avaliação em Nível de Trajetória de Chamada de Ferramentas de LLM para Tarefas Financeiras

FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real

OmniEval: Benchmark de Avaliação de RAG Omnidirecional para o Domínio Financeiro

Levantamento sobre Detecção de Anomalias com LLM (NAACL 2025): Taxonomia Forte, Cobertura Tabular Ausente

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico