2026
- 15 de abril - FinBen: Avaliando LLMs em 36 Tarefas Financeiras — Implicações para IA de Contabilidade
- 16 de abril - Toolformer: Uso de Ferramentas Autossupervisionado e seus Limites para IA Financeira
- 17 de abril - ReAct: Sinergia entre Raciocínio e Ação em Modelos de Linguagem
- 18 de abril - Benchmark FinMaster: Por que LLMs atingem 96% em alfabetização financeira, mas apenas 3% na geração de demonstrações
- 19 de abril - PHANTOM (NeurIPS 2025): Medindo a Detecção de Alucinações de LLMs em Documentos Financeiros
- 20 de abril - Prompting de Cadeia de Pensamento (Chain-of-Thought): Trade-offs de Precisão e Recall para IA Financeira
- 21 de abril - IA Constitucional para Agentes Contábeis: RLAIF, Regras de Políticas e Riscos de Goodharting
- 22 de abril - LLMs Conseguem Raciocinar Sobre Dados Tabulares? O Que Quatro Benchmarks Nos Dizem Sobre IA nas Finanças
- 23 de abril - PAL: Modelos de Linguagem Auxiliados por Programas para Aritmética Financeira Confiável
- 24 de abril - Auto-consistência: Amostragem de Voto Majoritário Aumenta a Precisão da Cadeia de Pensamento
- 25 de abril - Reflexion: Agentes de Linguagem que Aprendem com Erros sem Retreinamento
- 26 de abril - CRITIC: Por que a Autocorreção de LLM Requer Feedback de Ferramentas Externas
- 27 de abril - Tree of Thoughts: Resolução Deliberada de Problemas com Busca de LLM
- 28 de abril - LLMs ainda não conseguem autocorrigir raciocínio — Descobertas do ICLR 2024 e implicações para IA em Finanças
- 29 de abril - CodeAct: Por que Código Python Executável Torna Agentes de LLM 20% Mais Precisos
- 30 de abril - SWE-bench: Modelos de Linguagem Conseguem Resolver Problemas Reais do GitHub?
- 1 de maio - SWE-agent: Como o Design de Interface Desbloqueia a Engenharia de Software Automatizada
- 2 de maio - MemGPT: Gerenciamento de Contexto Virtual para Agentes de LLM
- 3 de maio - Gorilla: Como o Treinamento Consciente de Recuperação Reduz as Alucinações de APIs em LLMs de 78% para 11%
- 4 de maio - AutoGen: Frameworks de Conversação Multagentes para IA Financeira
- 5 de maio - BloombergGPT e os Limites de LLMs de Domínio Específico em Finanças
- 6 de maio - AgentBench: Avaliando LLMs como Agentes — Lições para a Confiabilidade da IA em Finanças
- 7 de maio - HippoRAG: Memória de Longo Prazo para LLMs Inspirada na Neurobiologia
- 8 de maio - Voyager: Bibliotecas de Habilidades como Base para o Aprendizado Contínuo de Agentes de IA
- 9 de maio - Self-RAG: Recuperação Adaptativa e Autocrítica para LLMs
- 10 de maio - LATS: Language Agent Tree Search — Raciocínio, Ação e Planejamento em um Único Framework
- 11 de maio - DSPy: Substituindo Engenharia de Prompt Frágil por Pipelines de LLM Compilados
- 12 de maio - FinanceBench: Por que o RAG com Vector-Store falha em documentos financeiros reais
- 13 de maio - FinQA: O Benchmark que Mede o Raciocínio Numérico de IA em Relatórios Financeiros
- 14 de maio - TAT-QA: Benchmark de QA Híbrido de Tabela-Texto para Raciocínio em Relatórios Anuais Financeiros
- 15 de maio - ConvFinQA: QA Financeiro de Múltiplos Turnos e a Lacuna de 21 Pontos entre Modelos e Especialistas Humanos
- 16 de maio - MultiHiertt: Benchmarking de Raciocínio Numérico em Tabelas Financeiras Multi-Hierárquicas
- 17 de maio - Geração Aumentada por Recuperação para Tarefas de PLN com Uso Intensivo de Conhecimento
- 18 de maio - FLARE: Geração Aumentada por Recuperação Ativa
- 19 de maio - IRCoT: Intercalando Recuperação com Cadeia de Pensamento para QA de Múltiplas Etapas
- 20 de maio - Ajuste Fino vs. RAG: Por Que a Recuperação Vence ao Injetar Novos Conhecimentos em LLMs
- 21 de maio - TAT-LLM: LLaMA 2 Ajustado para Raciocínio Discreto sobre Tabelas e Textos Financeiros
- 22 de maio - AuditCopilot: LLMs para Detecção de Fraude em Contabilidade por Partidas Dobradas
- 23 de maio - LLMs Não São Úteis para Previsão de Séries Temporais: O Que o NeurIPS 2024 Significa para a IA Financeira
- 24 de maio - Debate Multiagente de LLM: Ganhos Reais de Precisão, Computação Descontrolada e Delírio Coletivo
- 25 de maio - GuardAgent: Execução Determinística de Políticas de Segurança para Agentes LLM via Execução de Código
- 26 de maio - Fusion-in-Decoder: Como a Recuperação de Múltiplas Passagens Melhora o QA Generativo
- 27 de maio - Atlas: Pré-treinamento Conjunto de Recuperador-Leitor Supera LLMs de 540B Parâmetros com 11B Parâmetros
- 28 de maio - ShieldAgent: Raciocínio de Políticas de Segurança Verificáveis para Agentes de LLM
- 29 de maio - AGrail: Trilhos de Segurança Adaptativos para Agentes de LLM que Aprendem entre Tarefas
- 30 de maio - M3MAD-Bench: Os Debates Multi-Agente São Realmente Eficazes em Diferentes Domínios e Modalidades?
- 31 de maio - LLMs de Agente Único Superam Sistemas Multiagente em Raciocínio de Múltiplas Etapas sob Orçamentos de Tokens de Pensamento Iguais
- 1 de junho - StructRAG (ICLR 2025): Escolher a Estrutura de Documento Correta Vence o GraphRAG por 28 Pontos
- 2 de junho - InvestorBench: Avaliando Agentes de LLM em Decisões de Negociação Financeira
- 3 de junho - FinAuditing: LLMs Pontuam Abaixo de 14% em Tarefas Reais de Auditoria SEC XBRL
- 4 de junho - GraphRAG: Da Sumarização Local à Global Focada em Consultas
- 5 de junho - Uso de Ferramentas Verificavelmente Seguro para Agentes de LLM: STPA encontra MCP
- 6 de junho - Benchmark BIRD: A Lacuna de Bancos de Dados Reais em LLM Text-to-SQL
- 7 de junho - DIN-SQL: Aprendizado em Contexto Decomposto para Text-to-SQL
- 8 de junho - MAC-SQL: Colaboração Multi-Agente de Texto para SQL
- 9 de junho - TAPAS: Table QA Fracamente Supervisionado Sem SQL, e o Que Isso Significa para o Beancount
- 10 de junho - TableLlama: Pode um Modelo Aberto de 7B Igualar o GPT-4 na Compreensão de Tabelas?
- 11 de junho - Chain-of-Table: Evoluindo Tabelas na Cadeia de Raciocínio de LLMs
- 12 de junho - τ-bench: Medindo a Confiabilidade de Agentes de IA em Domínios de Uso de Ferramentas no Mundo Real
- 13 de junho - WorkArena: Como Agentes Web de LLM se Comportam em Trabalho de Conhecimento Empresarial Real
- 14 de junho - WebArena: O Benchmark de 812 Tarefas que Mede o que Agentes Web Realmente Podem e Não Podem Fazer
- 15 de junho - OSWorld: Agentes de IA para Desktop Têm Sucesso em 12% das Tarefas Onde Humanos Têm Sucesso em 72%
- 16 de junho - Benchmark GAIA: Medindo o Que os Agentes de IA de Fronteira Realmente Conseguem Fazer
- 17 de junho - WorkArena++: A Lacuna de 93% entre o Desempenho Humano e de Agentes de IA em Tarefas Empresariais Composicionais
- 18 de junho - τ²-bench: Medindo o Custo do Controle Duplo em Agentes de IA Conversacionais
- 19 de junho - TheAgentCompany: Avaliando Agentes de LLM em Tarefas Empresariais do Mundo Real
- 20 de junho - DocFinQA: Raciocínio Financeiro de Longo Contexto em Arquivos Completos da SEC
- 21 de junho - Detecção de Anomalias Zero-Shot com LLMs: Como o GPT-4 se Comporta em Dados Tabulares
- 22 de junho - TableMaster: Raciocínio Adaptativo para Compreensão de Tabelas com LLMs
- 23 de junho - LLMs pontuam 2,3% na Geração de DSL Beancount: O Benchmark LLMFinLiteracy
- 24 de junho - AnoLLM: Ajuste Fino de LLMs para Detecção de Anomalias em Dados Tabulares Financeiros
- 25 de junho - CausalTAD: Ordenação Causal de Colunas para Detecção de Anomalias Tabulares via LLM
- 26 de junho - Benchmark AD-LLM: GPT-4o Alcança 0,93+ AUROC Zero-Shot para Detecção de Anomalias em Texto
- 27 de junho - Perdido no Meio: Viés de Posição em LLMs e seu Impacto na IA Financeira
- 28 de junho - FinDER: Consultas de Analistas Reais Expõem uma Lacuna de 74% de Recall em RAG Financeiro
- 29 de junho - Fin-RATE: Como os LLMs falham na análise financeira entre períodos e entre entidades
- 30 de junho - OpenHands: Plataforma Aberta para Agentes de Software de IA e o que Isso Significa para a Automação Financeira
- 1 de julho - Diferimento Ciente de Incerteza para Agentes LLM: Quando Escalar de Modelos Pequenos para Grandes
- 2 de julho - Encontrado no Meio: Calibrar o Viés de Atenção Posicional Melhora o RAG de Contexto Longo
- 3 de julho - Levantamento sobre Detecção de Anomalias com LLM (NAACL 2025): Taxonomia Forte, Cobertura Tabular Ausente
- 4 de julho - OmniEval: Benchmark de Avaliação de RAG Omnidirecional para o Domínio Financeiro
- 5 de julho - FinToolBench: Avaliando Agentes de LLM no Uso de Ferramentas Financeiras do Mundo Real
- 6 de julho - FinTrace: Avaliação em Nível de Trajetória de Chamada de Ferramentas de LLM para Tarefas Financeiras
- 7 de julho - FinMCP-Bench: Benchmarking de Agentes de LLM para Uso de Ferramentas Financeiras no Mundo Real sob MCP
- 8 de julho - JSONSchemaBench: Complexidade de Esquemas do Mundo Real Quebra Garantias de Saída Estruturada de LLMs
- 9 de julho - Confiança e Calibração em LLM: Um Levantamento do que a Pesquisa Realmente Mostra
- 10 de julho - WildToolBench: Por que nenhum LLM excede 15% de acurácia de sessão no uso de ferramentas no mundo real
- 11 de julho - Agentes de LLM podem ser CFOs? Simulação de 132 meses do EnterpriseArena revela uma grande lacuna
- 12 de julho - FinRAGBench-V: RAG Multimodal com Citações Visuais no Domínio Financeiro
