Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Ver todos os autores

GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código
·mike

GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código

O GuardAgent (ICML 2025) coloca um agente LLM separado entre um agente de destino e seu ambiente, verificando cada ação proposta por meio da geração e execução de código Python — alcançando 98,7% de precisão na aplicação de políticas, preservando 100% da conclusão de tarefas, versus 81% de precisão e 29–71% de falha em tarefas para regras de segurança incorporadas em prompts.

ai
llm
automation
security
+3
Debate Multiagente de LLM: Ganhos Reais de Precisão, Computação Descontrolada e Delírio Coletivo
·mike

Debate Multiagente de LLM: Ganhos Reais de Precisão, Computação Descontrolada e Delírio Coletivo

Uma leitura detalhada do artigo de debate multiagente da ICML 2024 de Du et al. — que relata ganhos de precisão de 14,8 pontos em aritmética — juntamente com refutações de 2025 que mostram que agentes únicos com orçamento igual igualam o desempenho do debate, e uma análise de por que o Delírio Coletivo (65% das falhas de debate) apresenta riscos específicos para lançamentos no ledger assistidos por IA.

ai
llm
machine-learning
automation
+2
LLMs Não São Úteis para Previsão de Séries Temporais: O Que o NeurIPS 2024 Significa para a IA Financeira
·mike

LLMs Não São Úteis para Previsão de Séries Temporais: O Que o NeurIPS 2024 Significa para a IA Financeira

Um artigo Spotlight do NeurIPS 2024 analisa três métodos de previsão de séries temporais baseados em LLM — OneFitsAll, Time-LLM e CALF — e descobre que a remoção do modelo de linguagem melhora a precisão na maioria dos casos, com uma aceleração de treinamento de até 1.383×. Para aplicações de IA financeira, como a previsão de saldo no Beancount, modelos leves e dedicados superam consistentemente os LLMs adaptados.

ai
machine-learning
forecasting
data-science
+3
AuditCopilot: LLMs para Detecção de Fraude em Contabilidade por Partidas Dobradas
·mike

AuditCopilot: LLMs para Detecção de Fraude em Contabilidade por Partidas Dobradas

O AuditCopilot aplica LLMs de código aberto (Mistral-8B, Gemma, Llama-3.1) à detecção de fraude em lançamentos contábeis corporativos, reduzindo falsos positivos de 942 para 12 — mas a ablação revela que o LLM funciona principalmente como uma camada de síntese sobre as pontuações de Isolation Forest, não como um detector de anomalias independente.

fraud-detection
llm
double-entry
journal-entries
+4
TAT-LLM: LLaMA 2 Ajustado para Raciocínio Discreto sobre Tabelas e Textos Financeiros
·mike

TAT-LLM: LLaMA 2 Ajustado para Raciocínio Discreto sobre Tabelas e Textos Financeiros

O TAT-LLM realiza o ajuste fino (fine-tuning) do LLaMA 2 7B com LoRA em benchmarks de QA de tabelas e textos financeiros, alcançando 64,60% de EM no FinQA — superando os 63,91% do GPT-4 — ao decompor o raciocínio em etapas determinísticas de Extração-Raciocínio-Execução que eliminam erros aritméticos.

llm
ai
machine-learning
finance
+3
Ajuste Fino vs. RAG: Por Que a Recuperação Vence ao Injetar Novos Conhecimentos em LLMs
·mike

Ajuste Fino vs. RAG: Por Que a Recuperação Vence ao Injetar Novos Conhecimentos em LLMs

Uma comparação empírica de RAG vs. ajuste fino não supervisionado em LLMs de 7 bilhões de parâmetros mostra que o RAG alcança mais de 0,875 de precisão em fatos pós-treinamento, enquanto o ajuste fino estabiliza em 0,504 — com implicações diretas para o design de agentes Beancount e qualquer sistema que exija atualizações frequentes de conhecimento.

ai
llm
machine-learning
data-science
+3
IRCoT: Intercalando Recuperação com Cadeia de Pensamento para QA de Múltiplas Etapas
·mike

IRCoT: Intercalando Recuperação com Cadeia de Pensamento para QA de Múltiplas Etapas

O IRCoT intercala a recuperação BM25 com cada etapa de um loop de raciocínio de cadeia de pensamento, alcançando +11,3 de recall de recuperação e +7,1 de F1 no HotpotQA em relação ao RAG de etapa única — e mostra que um modelo de 3B pode superar o GPT-3 de 175B quando a estratégia de recuperação é adequada.

ai
llm
machine-learning
automation
+3
FLARE: Geração Aumentada por Recuperação Ativa
·mike

FLARE: Geração Aumentada por Recuperação Ativa

O FLARE (EMNLP 2023) melhora o RAG padrão ao acionar a recuperação no meio da geração usando limiares de confiança de probabilidade de token, atingindo 51,0 de EM no 2WikiMultihopQA contra 39,4 para recuperação única — mas falhas de calibração em modelos de chat ajustados por instruções limitam sua confiabilidade para agentes financeiros de produção.

ai
machine-learning
llm
retrieval-augmented-generation
+3
Geração Aumentada por Recuperação para Tarefas de PLN com Uso Intensivo de Conhecimento
·mike

Geração Aumentada por Recuperação para Tarefas de PLN com Uso Intensivo de Conhecimento

O artigo de Lewis et al. no NeurIPS 2020 introduziu a arquitetura híbrida RAG — um gerador BART-large pareado com um recuperador indexado por FAISS sobre 21 milhões de passagens da Wikipedia — alcançando 44,5 EM em Natural Questions e estabelecendo a divisão paramétrica/não paramétrica que agora fundamenta a maioria dos sistemas de IA em produção. Esta revisão aborda as compensações entre RAG-Sequence e RAG-Token, o modo de falha de colapso de recuperação e o que índices desatualizados significam para a IA financeira construída em livros contábeis Beancount de acréscimo apenas (append-only).

ai
machine-learning
llm
data-science
+2
MultiHiertt: Benchmarking de Raciocínio Numérico em Tabelas Financeiras Multi-Hierárquicas
·mike

MultiHiertt: Benchmarking de Raciocínio Numérico em Tabelas Financeiras Multi-Hierárquicas

O MultiHiertt (ACL 2022) apresenta 10.440 pares de QA de relatórios financeiros reais com uma média de 3,89 tabelas hierárquicas cada; modelos de última geração atingem 38% de F1 contra 87% de humanos, com uma penalidade de 15 pontos para perguntas entre tabelas — quantificando a lacuna de recuperação que a IA financeira deve fechar.

ai
machine-learning
llm
financial-reporting
+3
ConvFinQA: QA Financeiro de Múltiplos Turnos e a Lacuna de 21 Pontos entre Modelos e Especialistas Humanos
·mike

ConvFinQA: QA Financeiro de Múltiplos Turnos e a Lacuna de 21 Pontos entre Modelos e Especialistas Humanos

ConvFinQA (EMNLP 2022) estende o FinQA para conversas de múltiplos turnos sobre relatórios de lucros do S&P 500, descobrindo que o melhor modelo ajustado atinge 68,9% de precisão de execução contra 89,4% de especialistas humanos — e cai para 52,4% em conversas híbridas de múltiplos aspectos, onde os modelos devem carregar o contexto numérico entre diferentes tópicos financeiros.

ai
llm
machine-learning
finance
+3
TAT-QA: Benchmark de QA Híbrido de Tabela-Texto para Raciocínio em Relatórios Anuais Financeiros
·mike

TAT-QA: Benchmark de QA Híbrido de Tabela-Texto para Raciocínio em Relatórios Anuais Financeiros

O TAT-QA é um benchmark de 16.552 perguntas sobre contextos híbridos de tabela e texto em relatórios financeiros que demonstrou que o embasamento em evidências — e não a aritmética — é o principal gargalo na IA financeira; até 2024, LLMs de 7B ajustados alcançaram 83% de F1, fechando a maior parte da lacuna em relação ao teto humano de 91%.

ai
machine-learning
llm
finance
+2
Mostrando 49–60 de 87 publicações