Pular para o conteúdo principal
Technology

Tudo Sobre Technology

8 artigos
Technology research and software engineering topics relevant to financial AI systems

Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira

O artigo da TACL 2024 de Liu et al. mostra que os LLMs têm um desempenho até 20 pontos pior em informações enterradas no meio de contextos longos — uma degradação em forma de U que afeta todos os modelos testados, incluindo o Claude-1.3-100K — com implicações concretas sobre como os pipelines de RAG devem ordenar as passagens recuperadas em aplicações financeiras e contábeis.

OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%

O OSWorld (NeurIPS 2024) avalia agentes de IA multimodais em 369 tarefas reais de desktop no Ubuntu, Windows e macOS — encontrando uma lacuna de 60 pontos percentuais entre o melhor modelo (12,24%) e o desempenho humano (72,36%), com 75% das falhas atribuídas a erros de fundamentação visuomotora em vez de falhas de raciocínio.

StructRAG (ICLR 2025): Escolher a Estrutura de Documento Correta Vence o GraphRAG por 28 Pontos

O StructRAG (ICLR 2025) roteia cada consulta para um tipo de estrutura apropriado para a tarefa — tabela, grafo, catálogo, algoritmo ou bloco — antes do raciocínio, pontuando 28 pontos a mais que o GraphRAG no benchmark Loong, enquanto roda 22 vezes mais rápido, com o roteador treinado via DPO sozinho sendo responsável por um ganho de 15 pontos na precisão.

LLMs de Agente Único Superam Sistemas Multiagente em Raciocínio de Múltiplas Etapas sob Orçamentos de Tokens de Pensamento Iguais

Um preprint de Stanford de 2026 equaliza orçamentos de tokens de pensamento em cinco arquiteturas multiagente e descobre que LLMs de agente único igualam ou superam sistemas multiagente em raciocínio de múltiplas etapas — com fundamentação teórica na Desigualdade de Processamento de Dados e implicações para o design de agentes de IA financeira.

Self-RAG: Recuperação Adaptativa e Autocrítica para LLMs

O Self-RAG (ICLR 2024 Oral) treina um modelo de linguagem para decidir quando recuperar informações e, em seguida, avaliar seus próprios resultados usando quatro tokens de reflexão — alcançando 55,8% no PopQA e 80,2 de FactScore em biografias, superando o ChatGPT em cinco benchmarks. A análise abrange o mecanismo, resultados de ablação, limites de reprodutibilidade e implicações para agentes de IA financeira sobre livros contábeis do Beancount.

AgentBench: Avaliando LLMs como Agentes — Lições para a Confiabilidade da IA em Finanças

O AgentBench (Liu et al., ICLR 2024) avalia 27 LLMs em 8 ambientes interativos — o GPT-4 obteve 4,01 no geral contra 0,96 do melhor modelo de código aberto. Os três principais modos de falha (limite de tarefa excedido em 67,9% das falhas de grafo de conhecimento, erros de formato em 53,3% das falhas de banco de dados e ações inválidas) mapeiam-se diretamente nos riscos de implantar um agente de gravação do Beancount em um livro-razão real.

MemGPT: Gerenciamento de Contexto Virtual para Agentes de LLM

O MemGPT aplica a paginação de memória virtual do estilo de sistemas operacionais a LLMs, usando armazenamento em três níveis — memória de trabalho, recuperação e arquivamento — para dar aos agentes uma lembrança persistente entre sessões; em benchmarks de chat multissessão, o MemGPT com GPT-4 atinge 92,5% de precisão contra uma linha de base de contexto fixo de 32,1%.