Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): Escolher a Estrutura de Documento Correta Vence o GraphRAG por 28 Pontos

O StructRAG (ICLR 2025) roteia cada consulta para um tipo de estrutura apropriado para a tarefa — tabela, grafo, catálogo, algoritmo ou bloco — antes do raciocínio, pontuando 28 pontos a mais que o GraphRAG no benchmark Loong, enquanto roda 22 vezes mais rápido, com o roteador treinado via DPO sozinho sendo responsável por um ganho de 15 pontos na precisão.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

LLMs de Agente Único Superam Sistemas Multiagente em Raciocínio de Múltiplas Etapas sob Orçamentos de Tokens de Pensamento Iguais

Um preprint de Stanford de 2026 equaliza orçamentos de tokens de pensamento em cinco arquiteturas multiagente e descobre que LLMs de agente único igualam ou superam sistemas multiagente em raciocínio de múltiplas etapas — com fundamentação teórica na Desigualdade de Processamento de Dados e implicações para o design de agentes de IA financeira.

AILLMMachine LearningAutomationFinanceData ScienceMulti-Agent

M3MAD-Bench: Os Debates Multi-Agente São Realmente Eficazes em Diferentes Domínios e Modalidades?

O M3MAD-Bench testa o estresse do Debate Multi-Agente em 9 modelos, 5 domínios e configurações de visão-linguagem, revelando que o Delírio Coletivo causa 65% das falhas, o debate adversarial reduz a precisão em até 12,8% e a Self-Consistency geralmente iguala a precisão do debate com um custo de tokens menor.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: Trilhos de Segurança Adaptativos para Agentes de LLM que Aprendem entre Tarefas

O AGrail (ACL 2025) apresenta um trilho de segurança cooperativo de dois LLMs que adapta verificações de segurança no momento da inferência via adaptação em tempo de teste, alcançando 0% de taxa de sucesso em ataques de injeção de prompt e 95,6% de preservação de ações benignas no Safe-OS — em comparação com o GuardAgent e o LLaMA-Guard, que bloqueiam até 49,2% das ações legítimas.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Raciocínio de Políticas de Segurança Verificáveis para Agentes de LLM

O ShieldAgent (ICML 2025) substitui os guardrails baseados em LLM por circuitos de regras probabilísticas construídos em Redes Lógicas de Markov, alcançando 90,4% de precisão em ataques de agentes com 64,7% menos chamadas de API — e o que isso significa para a segurança verificável em sistemas de IA financeira.

AIMachine LearningLLMData ScienceBeancountFinanceAutomation

Atlas: Pré-treinamento Conjunto de Recuperador-Leitor Supera LLMs de 540B Parâmetros com 11B Parâmetros

O Atlas (JMLR 2023) atinge 42,4% de precisão no Natural Questions com apenas 64 exemplos de treinamento — superando o PaLM 540B por 3 pontos usando 11B de parâmetros — através do pré-treinamento conjunto de um recuperador denso baseado em Contriever com um leitor Fusion-in-Decoder baseado em T5. A análise cobre os limites de precisão da recuperação, custos de infraestrutura de um índice de 587 GB e implicações para sistemas de QA para livros razão Beancount.

AIMachine LearningLLMBeancountData SciencePlain-Text Accounting

Fusion-in-Decoder: Como a Recuperação de Múltiplas Passagens Melhora o QA Generativo

A arquitetura FiD de Izacard e Grave codifica passagens recuperadas de forma independente e depois as funde no decodificador, superando o RAG-Sequence em 4 a 11 pontos no NQ e TriviaQA. Este post examina o design e suas implicações para o QA de livros contábeis do Beancount, onde a síntese de múltiplas entradas entre transações é a norma.

AILLMAutomationSecurityMachine LearningTransaction ValidationTrust

GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código

O GuardAgent (ICML 2025) coloca um agente LLM separado entre um agente de destino e seu ambiente, verificando cada ação proposta por meio da geração e execução de código Python — alcançando 98,7% de precisão na aplicação de políticas, preservando 100% da conclusão de tarefas, versus 81% de precisão e 29–71% de falha em tarefas para regras de segurança incorporadas em prompts.

AILLMMachine LearningAutomationBeancountTransaction Validation

Debate Multiagente de LLM: Ganhos Reais de Precisão, Computação Descontrolada e Delírio Coletivo

Uma leitura detalhada do artigo de debate multiagente da ICML 2024 de Du et al. — que relata ganhos de precisão de 14,8 pontos em aritmética — juntamente com refutações de 2025 que mostram que agentes únicos com orçamento igual igualam o desempenho do debate, e uma análise de por que o Delírio Coletivo (65% das falhas de debate) apresenta riscos específicos para lançamentos no ledger assistidos por IA.

InvestorBench: Avaliando Agentes de LLM em Decisões de Negociação Financeira

Latest articles

StructRAG (ICLR 2025): Escolher a Estrutura de Documento Correta Vence o GraphRAG por 28 Pontos

LLMs de Agente Único Superam Sistemas Multiagente em Raciocínio de Múltiplas Etapas sob Orçamentos de Tokens de Pensamento Iguais

M3MAD-Bench: Os Debates Multi-Agente São Realmente Eficazes em Diferentes Domínios e Modalidades?

AGrail: Trilhos de Segurança Adaptativos para Agentes de LLM que Aprendem entre Tarefas

ShieldAgent: Raciocínio de Políticas de Segurança Verificáveis para Agentes de LLM

Atlas: Pré-treinamento Conjunto de Recuperador-Leitor Supera LLMs de 540B Parâmetros com 11B Parâmetros

Fusion-in-Decoder: Como a Recuperação de Múltiplas Passagens Melhora o QA Generativo

GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código

Debate Multiagente de LLM: Ganhos Reais de Precisão, Computação Descontrolada e Delírio Coletivo

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico