8 publicações com a etiqueta "Technology"

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: Por que nenhum LLM excede 15% de acurácia de sessão no uso de ferramentas no mundo real

O WildToolBench (ICLR 2026) avalia 57 LLMs em 1.024 tarefas extraídas do comportamento real do usuário — nenhum modelo excede 15% de acurácia de sessão, com a orquestração composicional, intenção oculta e transições de instrução como os três modos de falha mais acentuados.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira

O artigo da TACL 2024 de Liu et al. mostra que os LLMs têm um desempenho até 20 pontos pior em informações enterradas no meio de contextos longos — uma degradação em forma de U que afeta todos os modelos testados, incluindo o Claude-1.3-100K — com implicações concretas sobre como os pipelines de RAG devem ordenar as passagens recuperadas em aplicações financeiras e contábeis.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%

O OSWorld (NeurIPS 2024) avalia agentes de IA multimodais em 369 tarefas reais de desktop no Ubuntu, Windows e macOS — encontrando uma lacuna de 60 pontos percentuais entre o melhor modelo (12,24%) e o desempenho humano (72,36%), com 75% das falhas atribuídas a erros de fundamentação visuomotora em vez de falhas de raciocínio.

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): Escolher a Estrutura de Documento Correta Vence o GraphRAG por 28 Pontos

O StructRAG (ICLR 2025) roteia cada consulta para um tipo de estrutura apropriado para a tarefa — tabela, grafo, catálogo, algoritmo ou bloco — antes do raciocínio, pontuando 28 pontos a mais que o GraphRAG no benchmark Loong, enquanto roda 22 vezes mais rápido, com o roteador treinado via DPO sozinho sendo responsável por um ganho de 15 pontos na precisão.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

LLMs de Agente Único Superam Sistemas Multiagente em Raciocínio de Múltiplas Etapas sob Orçamentos de Tokens de Pensamento Iguais

Um preprint de Stanford de 2026 equaliza orçamentos de tokens de pensamento em cinco arquiteturas multiagente e descobre que LLMs de agente único igualam ou superam sistemas multiagente em raciocínio de múltiplas etapas — com fundamentação teórica na Desigualdade de Processamento de Dados e implicações para o design de agentes de IA financeira.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: Recuperação Adaptativa e Autocrítica para LLMs

O Self-RAG (ICLR 2024 Oral) treina um modelo de linguagem para decidir quando recuperar informações e, em seguida, avaliar seus próprios resultados usando quatro tokens de reflexão — alcançando 55,8% no PopQA e 80,2 de FactScore em biografias, superando o ChatGPT em cinco benchmarks. A análise abrange o mecanismo, resultados de ablação, limites de reprodutibilidade e implicações para agentes de IA financeira sobre livros contábeis do Beancount.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: Avaliando LLMs como Agentes — Lições para a Confiabilidade da IA em Finanças

O AgentBench (Liu et al., ICLR 2024) avalia 27 LLMs em 8 ambientes interativos — o GPT-4 obteve 4,01 no geral contra 0,96 do melhor modelo de código aberto. Os três principais modos de falha (limite de tarefa excedido em 67,9% das falhas de grafo de conhecimento, erros de formato em 53,3% das falhas de banco de dados e ações inválidas) mapeiam-se diretamente nos riscos de implantar um agente de gravação do Beancount em um livro-razão real.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: Gerenciamento de Contexto Virtual para Agentes de LLM

O MemGPT aplica a paginação de memória virtual do estilo de sistemas operacionais a LLMs, usando armazenamento em três níveis — memória de trabalho, recuperação e arquivamento — para dar aos agentes uma lembrança persistente entre sessões; em benchmarks de chat multissessão, o MemGPT com GPT-4 atinge 92,5% de precisão contra uma linha de base de contexto fixo de 32,1%.

Tudo Sobre Technology

WildToolBench: Por que nenhum LLM excede 15% de acurácia de sessão no uso de ferramentas no mundo real

Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira

OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%

StructRAG (ICLR 2025): Escolher a Estrutura de Documento Correta Vence o GraphRAG por 28 Pontos

LLMs de Agente Único Superam Sistemas Multiagente em Raciocínio de Múltiplas Etapas sob Orçamentos de Tokens de Pensamento Iguais

Self-RAG: Recuperação Adaptativa e Autocrítica para LLMs

AgentBench: Avaliando LLMs como Agentes — Lições para a Confiabilidade da IA em Finanças

MemGPT: Gerenciamento de Contexto Virtual para Agentes de LLM

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico