Pular para o conteúdo principal
Automation

Tudo Sobre Automation

57 artigos
Automation techniques and tools for financial data processing workflows

Agentes de LLM podem ser CFOs? Simulação de 132 meses do EnterpriseArena revela uma grande lacuna

O EnterpriseArena submete 11 LLMs a uma simulação de CFO de 132 meses, monitorando sobrevivência, avaliação terminal e taxas de fechamento de livros. Apenas o Qwen3.5-9B sobrevive a 80% das execuções; GPT-5.4 e DeepSeek-V3.1 chegam a 0%. Especialistas humanos alcançam 100% de sobrevivência com 5x o valor terminal. O gargalo crítico é que as LLMs ignoram a reconciliação do razão 80% das vezes, agindo com base em estados financeiros obsoletos.

JSONSchemaBench: Complexidade de Esquemas do Mundo Real Quebra Garantias de Saída Estruturada de LLMs

O JSONSchemaBench testa 9.558 esquemas JSON do mundo real contra seis frameworks de decodificação restrita e descobre que a complexidade do esquema faz com que a cobertura desmorone de 86% em esquemas simples para 3% em esquemas complexos, com o XGrammar emitindo silenciosamente 38 saídas não conformes e nenhum framework cobrindo todas as 45 categorias de recursos do JSON Schema.

FinTrace: Avaliação em Nível de Trajetória de Chamada de Ferramentas de LLM para Tarefas Financeiras

O FinTrace avalia 13 LLMs em 800 trajetórias de tarefas financeiras anotadas por especialistas em 9 métricas, revelando que modelos de fronteira alcançam uma forte seleção de ferramentas (F1 ~0,9), mas pontuam apenas 3,23/5 na utilização de informações — a etapa em que os agentes raciocinam sobre o que as ferramentas retornam.

FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real

O FinToolBench combina 760 ferramentas de API financeira reais com 295 consultas executáveis para avaliar agentes de LLM em tarefas financeiras do mundo real — revelando que a taxa de invocação conservadora de 22,7% do GPT-4o gera uma qualidade de resposta superior (CSS 0,670) em comparação com a TIR agressiva de 87,1% do Qwen3-8B, enquanto o desajuste de intenção ultrapassa 50% em todos os modelos testados.

OmniEval: Benchmark de Avaliação de RAG Omnidirecional para o Domínio Financeiro

O OmniEval (EMNLP 2025) avalia sistemas RAG em 5 tipos de tarefas × 16 tópicos financeiros usando 11,4 mil casos de teste gerados automaticamente. Os melhores sistemas alcançam apenas 36% de precisão numérica — evidência concreta de que os pipelines de RAG precisam de camadas de validação antes de escrever em livros contábeis estruturados.

Encontrado no Meio: Calibrar o Viés de Atenção Posicional Melhora o RAG de Contexto Longo

Uma calibração em tempo de inferência, sem necessidade de treinamento, subtrai o viés posicional dos pesos de atenção do LLM, recuperando até 15 pontos percentuais de precisão de RAG quando documentos recuperados estão enterrados no meio do contexto — e o que isso significa para pipelines de agentes financeiros específicos.

Diferimento Ciente de Incerteza para Agentes LLM: Quando Escalar de Modelos Pequenos para Grandes

O ReDAct executa um modelo pequeno por padrão e escala para um modelo caro apenas quando a perplexidade em nível de token sinaliza incerteza, alcançando 64% de economia de custos em relação ao uso apenas do GPT-5.2, mantendo ou superando sua precisão — um padrão diretamente aplicável para agentes de categorização de transações no Beancount.

OpenHands: Plataforma Aberta para Agentes de Software de IA e o que Isso Significa para a Automação Financeira

OpenHands é uma plataforma de agentes com sandbox Docker e licença MIT onde o CodeAct atinge 26% no SWE-Bench Lite — um benchmark sóbrio que estabelece o que os agentes de IA podem fazer de forma confiável hoje, e por que as primeiras implantações financeiras produtivas devem ser estritamente delimitadas em vez de autônomas.