Mike Thrift

Marketing Manager

June 6, 2026·mike

Benchmark BIRD: A Lacuna de Bancos de Dados Reais em LLM Text-to-SQL

O benchmark BIRD (NeurIPS 2023) testa LLMs em 95 bancos de dados reais — o GPT-4 atinge apenas 54,89% de acurácia de execução com dicas de domínio e 34,88% sem elas, uma lacuna de 20 pontos que molda diretamente o que uma interface BQL de linguagem natural para o Beancount precisaria resolver.

beancount

llm

June 5, 2026·mike

Uso de Ferramentas Verificavelmente Seguro para Agentes de LLM: STPA encontra MCP

Pesquisadores da CMU e NC State propõem o uso da Análise de Processos Teórico-Sistêmica (STPA) e um Protocolo de Contexto de Modelo aprimorado por recursos para derivar especificações formais de segurança para o uso de ferramentas por agentes de LLM, com verificação baseada em Alloy demonstrando a ausência de fluxos inseguros em um estudo de caso de agendamento de calendário.

llm

security

June 4, 2026·mike

GraphRAG: Da Sumarização Local à Global Focada em Consultas

O GraphRAG da Microsoft constrói um gráfico de entidades particionado por Leiden sobre um corpus de texto e pré-computa resumos de comunidades para responder a perguntas de compreensão global que o RAG vetorial padrão não consegue lidar — mas uma auditoria de viés de 2025 mostra que suas taxas de vitória de 72–83% colapsam após a correção de artefatos de posição e comprimento na avaliação de LLM como juiz.

llm

machine-learning

June 3, 2026·mike

FinAuditing: LLMs Pontuam Abaixo de 14% em Tarefas Reais de Auditoria SEC XBRL

O FinAuditing testa 13 LLMs zero-shot em 1.102 instâncias reais de arquivamentos SEC XBRL; as pontuações máximas são de 13,86% na verificação matemática financeira e 12,42% na recuperação de conceitos — resultados que limitam diretamente o que as ferramentas de contabilidade de IA podem ser confiáveis para automatizar sem ferramentas externas.

llm

financial-reporting

June 2, 2026·mike

InvestorBench: Avaliando Agentes de LLM em Decisões de Negociação Financeira

O InvestorBench (ACL 2025) testa 13 backbones de LLM em negociações retroativas (backtested) de ações, cripto e ETFs usando retorno acumulado e índice de Sharpe — não precisão de QA. O Qwen2.5-72B lidera o ranking de ações com 46,15% de CR; modelos ajustados para finanças falham em ações. O tamanho do modelo prevê o desempenho de forma mais confiável do que o ajuste fino de domínio.

llm

finance

June 1, 2026·mike

StructRAG (ICLR 2025): Escolher a Estrutura de Documento Correta Vence o GraphRAG por 28 Pontos

O StructRAG (ICLR 2025) roteia cada consulta para um tipo de estrutura apropriado para a tarefa — tabela, grafo, catálogo, algoritmo ou bloco — antes do raciocínio, pontuando 28 pontos a mais que o GraphRAG no benchmark Loong, enquanto roda 22 vezes mais rápido, com o roteador treinado via DPO sozinho sendo responsável por um ganho de 15 pontos na precisão.

llm

machine-learning

May 31, 2026·mike

LLMs de Agente Único Superam Sistemas Multiagente em Raciocínio de Múltiplas Etapas sob Orçamentos de Tokens de Pensamento Iguais

Um preprint de Stanford de 2026 equaliza orçamentos de tokens de pensamento em cinco arquiteturas multiagente e descobre que LLMs de agente único igualam ou superam sistemas multiagente em raciocínio de múltiplas etapas — com fundamentação teórica na Desigualdade de Processamento de Dados e implicações para o design de agentes de IA financeira.

llm

machine-learning

May 30, 2026·mike

M3MAD-Bench: Os Debates Multi-Agente São Realmente Eficazes em Diferentes Domínios e Modalidades?

O M3MAD-Bench testa o estresse do Debate Multi-Agente em 9 modelos, 5 domínios e configurações de visão-linguagem, revelando que o Delírio Coletivo causa 65% das falhas, o debate adversarial reduz a precisão em até 12,8% e a Self-Consistency geralmente iguala a precisão do debate com um custo de tokens menor.

llm

machine-learning

May 29, 2026·mike

AGrail: Trilhos de Segurança Adaptativos para Agentes de LLM que Aprendem entre Tarefas

O AGrail (ACL 2025) apresenta um trilho de segurança cooperativo de dois LLMs que adapta verificações de segurança no momento da inferência via adaptação em tempo de teste, alcançando 0% de taxa de sucesso em ataques de injeção de prompt e 95,6% de preservação de ações benignas no Safe-OS — em comparação com o GuardAgent e o LLaMA-Guard, que bloqueiam até 49,2% das ações legítimas.

llm

security

May 28, 2026·mike

ShieldAgent: Raciocínio de Políticas de Segurança Verificáveis para Agentes de LLM

O ShieldAgent (ICML 2025) substitui os guardrails baseados em LLM por circuitos de regras probabilísticas construídos em Redes Lógicas de Markov, alcançando 90,4% de precisão em ataques de agentes com 64,7% menos chamadas de API — e o que isso significa para a segurança verificável em sistemas de IA financeira.

llm

machine-learning

May 27, 2026·mike

Atlas: Pré-treinamento Conjunto de Recuperador-Leitor Supera LLMs de 540B Parâmetros com 11B Parâmetros

O Atlas (JMLR 2023) atinge 42,4% de precisão no Natural Questions com apenas 64 exemplos de treinamento — superando o PaLM 540B por 3 pontos usando 11B de parâmetros — através do pré-treinamento conjunto de um recuperador denso baseado em Contriever com um leitor Fusion-in-Decoder baseado em T5. A análise cobre os limites de precisão da recuperação, custos de infraestrutura de um índice de 587 GB e implicações para sistemas de QA para livros razão Beancount.

machine-learning

llm

May 26, 2026·mike

Fusion-in-Decoder: Como a Recuperação de Múltiplas Passagens Melhora o QA Generativo

A arquitetura FiD de Izacard e Grave codifica passagens recuperadas de forma independente e depois as funde no decodificador, superando o RAG-Sequence em 4 a 11 pontos no NQ e TriviaQA. Este post examina o design e suas implicações para o QA de livros contábeis do Beancount, onde a síntese de múltiplas entradas entre transações é a norma.

machine-learning

llm

Mostrando 37–48 de 87 publicações

Anterior4 / 8Próximo