Pular para o conteúdo principal

Bean Labs Research Log

InvestorBench: Avaliando Agentes de LLM em Decisões de Negociação Financeira

O InvestorBench (ACL 2025) testa 13 backbones de LLM em negociações retroativas (backtested) de ações, cripto e ETFs usando retorno acumulado e índice de Sharpe — não precisão de QA. O Qwen2.5-72B lidera o ranking de ações com 46,15% de CR; modelos ajustados para finanças falham em ações. O tamanho do modelo prevê o desempenho de forma mais confiável do que o ajuste fino de domínio.

Latest articles

StructRAG (ICLR 2025): Escolher a Estrutura de Documento Correta Vence o GraphRAG por 28 Pontos

O StructRAG (ICLR 2025) roteia cada consulta para um tipo de estrutura apropriado para a tarefa — tabela, grafo, catálogo, algoritmo ou bloco — antes do raciocínio, pontuando 28 pontos a mais que o GraphRAG no benchmark Loong, enquanto roda 22 vezes mais rápido, com o roteador treinado via DPO sozinho sendo responsável por um ganho de 15 pontos na precisão.

LLMs de Agente Único Superam Sistemas Multiagente em Raciocínio de Múltiplas Etapas sob Orçamentos de Tokens de Pensamento Iguais

Um preprint de Stanford de 2026 equaliza orçamentos de tokens de pensamento em cinco arquiteturas multiagente e descobre que LLMs de agente único igualam ou superam sistemas multiagente em raciocínio de múltiplas etapas — com fundamentação teórica na Desigualdade de Processamento de Dados e implicações para o design de agentes de IA financeira.

M3MAD-Bench: Os Debates Multi-Agente São Realmente Eficazes em Diferentes Domínios e Modalidades?

O M3MAD-Bench testa o estresse do Debate Multi-Agente em 9 modelos, 5 domínios e configurações de visão-linguagem, revelando que o Delírio Coletivo causa 65% das falhas, o debate adversarial reduz a precisão em até 12,8% e a Self-Consistency geralmente iguala a precisão do debate com um custo de tokens menor.

AGrail: Trilhos de Segurança Adaptativos para Agentes de LLM que Aprendem entre Tarefas

O AGrail (ACL 2025) apresenta um trilho de segurança cooperativo de dois LLMs que adapta verificações de segurança no momento da inferência via adaptação em tempo de teste, alcançando 0% de taxa de sucesso em ataques de injeção de prompt e 95,6% de preservação de ações benignas no Safe-OS — em comparação com o GuardAgent e o LLaMA-Guard, que bloqueiam até 49,2% das ações legítimas.

Atlas: Pré-treinamento Conjunto de Recuperador-Leitor Supera LLMs de 540B Parâmetros com 11B Parâmetros

O Atlas (JMLR 2023) atinge 42,4% de precisão no Natural Questions com apenas 64 exemplos de treinamento — superando o PaLM 540B por 3 pontos usando 11B de parâmetros — através do pré-treinamento conjunto de um recuperador denso baseado em Contriever com um leitor Fusion-in-Decoder baseado em T5. A análise cobre os limites de precisão da recuperação, custos de infraestrutura de um índice de 587 GB e implicações para sistemas de QA para livros razão Beancount.

Fusion-in-Decoder: Como a Recuperação de Múltiplas Passagens Melhora o QA Generativo

A arquitetura FiD de Izacard e Grave codifica passagens recuperadas de forma independente e depois as funde no decodificador, superando o RAG-Sequence em 4 a 11 pontos no NQ e TriviaQA. Este post examina o design e suas implicações para o QA de livros contábeis do Beancount, onde a síntese de múltiplas entradas entre transações é a norma.

GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código

O GuardAgent (ICML 2025) coloca um agente LLM separado entre um agente de destino e seu ambiente, verificando cada ação proposta por meio da geração e execução de código Python — alcançando 98,7% de precisão na aplicação de políticas, preservando 100% da conclusão de tarefas, versus 81% de precisão e 29–71% de falha em tarefas para regras de segurança incorporadas em prompts.

Debate Multiagente de LLM: Ganhos Reais de Precisão, Computação Descontrolada e Delírio Coletivo

Uma leitura detalhada do artigo de debate multiagente da ICML 2024 de Du et al. — que relata ganhos de precisão de 14,8 pontos em aritmética — juntamente com refutações de 2025 que mostram que agentes únicos com orçamento igual igualam o desempenho do debate, e uma análise de por que o Delírio Coletivo (65% das falhas de debate) apresenta riscos específicos para lançamentos no ledger assistidos por IA.