Mike Thrift

Marketing Manager

June 30, 2026·mike

OpenHands: Plataforma Aberta para Agentes de Software de IA e o que Isso Significa para a Automação Financeira

OpenHands é uma plataforma de agentes com sandbox Docker e licença MIT onde o CodeAct atinge 26% no SWE-Bench Lite — um benchmark sóbrio que estabelece o que os agentes de IA podem fazer de forma confiável hoje, e por que as primeiras implantações financeiras produtivas devem ser estritamente delimitadas em vez de autônomas.

open-source

automation

June 29, 2026·mike

Fin-RATE: Como os LLMs falham na análise financeira entre períodos e entre entidades

O Fin-RATE avalia 17 LLMs em 7.500 pares de perguntas e respostas selecionados por especialistas de 2.472 registros da SEC, revelando um colapso de precisão de 18,60% sob rastreamento longitudinal e uma queda de 54 pontos para o Fin-R1 (especializado em finanças) em tarefas entre entidades — com o pipeline de recuperação, e não o modelo de base, como o gargalo limitante.

llm

machine-learning

June 28, 2026·mike

FinDER: Consultas de Analistas Reais Expõem uma Lacuna de 74% de Recall em RAG Financeiro

O FinDER avalia o RAG em 5.703 consultas reais de analistas de fundos de hedge contra registros 10-K do S&P 500; o E5-Mistral alcança apenas 25,95% de recall de contexto, e consultas repletas de abreviações custam 8,2 pontos de precisão — evidência de que a normalização de consultas, e não melhores embeddings, é a primeira correção para pipelines de IA financeira.

llm

machine-learning

June 27, 2026·mike

Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira

O artigo da TACL 2024 de Liu et al. mostra que os LLMs têm um desempenho até 20 pontos pior em informações enterradas no meio de contextos longos — uma degradação em forma de U que afeta todos os modelos testados, incluindo o Claude-1.3-100K — com implicações concretas sobre como os pipelines de RAG devem ordenar as passagens recuperadas em aplicações financeiras e contábeis.

llm

machine-learning

June 26, 2026·mike

Benchmark AD-LLM: GPT-4o Alcança 0,93+ AUROC Zero-Shot para Detecção de Anomalias em Texto

O AD-LLM avalia o GPT-4o e o Llama 3.1 8B em três funções de detecção de anomalias — detector zero-shot, aumentador de dados e seletor de modelos — em cinco conjuntos de dados de PLN; o GPT-4o atinge AUROC de 0,93–0,99 em zero-shot, mas a seleção de modelos baseada em LLM permanece pouco confiável, com implicações diretas para a IA de auditoria financeira.

llm

machine-learning

June 25, 2026·mike

CausalTAD: Ordenação Causal de Colunas para Detecção de Anomalias Tabulares via LLM

O CausalTAD melhora a detecção de anomalias tabulares baseada em LLM reordenando as colunas da tabela para respeitar dependências causais antes da serialização, elevando a AUC-ROC média de 0,803 para 0,834 em relação ao AnoLLM em benchmarks de tipos mistos — com implicações diretas para a detecção de anomalias em dados estruturados de livros contábeis (ledgers).

llm

machine-learning

June 24, 2026·mike

AnoLLM: Ajuste Fino de LLMs para Detecção de Anomalias em Dados Tabulares Financeiros

O AnoLLM (ICLR 2025) reformula a detecção de anomalias tabulares como estimativa de densidade de LLM — realizando o ajuste fino em linhas normais e pontuando pela log-verossimilhança negativa. Ele supera métodos clássicos em conjuntos de dados de fraude de tipos mistos, mas não oferece vantagem em dados puramente numéricos, com implicações reais para a detecção de anomalias em lançamentos de livros contábeis do Beancount.

llm

machine-learning

June 23, 2026·mike

LLMs pontuam 2,3% na Geração de DSL Beancount: O Benchmark LLMFinLiteracy

O benchmark LLMFinLiteracy revela que cinco modelos de pesos abertos de ~7B geram transações Beancount totalmente corretas apenas 2,3% das vezes, com falhas concentradas no raciocínio contábil — não na sintaxe — apontando o feedback do compilador no loop como o ingrediente crítico que falta para agentes de gravação confiáveis.

llm

beancount

plain-text-accounting

June 22, 2026·mike

TableMaster: Raciocínio Adaptativo para Compreensão de Tabelas com LLMs

O TableMaster é um pipeline baseado apenas em prompts que atinge 78,13% no WikiTQ com GPT-4o-mini — 13 pontos acima do Chain-of-Table — ao combinar extração de tabela de foco, verbalização semântica e alternância adaptativa entre raciocínio textual e simbólico. Veja o que essa arquitetura significa para agentes de IA em livros razão financeiros como o Beancount.

llm

machine-learning

June 21, 2026·mike

Detecção de Anomalias Zero-Shot com LLMs: Como o GPT-4 se Comporta em Dados Tabulares

O GPT-4 atinge uma média de 74,1 de AUROC no benchmark ODDS sem ajuste fino — quase igualando a linha de base clássica ECOD de 75,5 — mas falha em anomalias multidimensionais e conjuntos de dados de alta variância; uma análise crítica da detecção de anomalias zero-shot por LLMs e suas implicações para a auditoria automatizada de livros contábeis Beancount.

llm

fraud-detection

June 20, 2026·mike

DocFinQA: Raciocínio Financeiro de Longo Contexto em Arquivos Completos da SEC

O DocFinQA substitui as passagens selecionadas de 700 palavras do FinQA por arquivos completos da SEC de 123.000 palavras, expondo um aumento de contexto de 175× que reduz quase pela metade a precisão do GPT-4 em documentos longos. Os pipelines de recuperação falham em encontrar o trecho correto em 45% das vezes no HR@3 — e modelos de contexto longo não são um substituto.

llm

machine-learning

June 19, 2026·mike

TheAgentCompany: Avaliando Agentes de LLM em Tarefas Empresariais do Mundo Real

O TheAgentCompany testa 175 tarefas reais de trabalho em uma intranet simulada com GitLab, OwnCloud e RocketChat. O melhor modelo (Gemini-2.5-Pro) conclui apenas 30% das tarefas a um custo de US$ 4 cada, revelando que agentes autônomos permanecem longe de serem viáveis para fluxos de trabalho contábeis e financeiros.

llm

automation

Mostrando 13–24 de 87 publicações

Anterior2 / 8Próximo