Mike Thrift

Marketing Manager

May 13, 2026·mike

FinQA: O Benchmark que Mede o Raciocínio Numérico de IA em Relatórios Financeiros

O FinQA (EMNLP 2021) construiu 8.281 pares de perguntas e respostas a partir de relatórios de lucros do S&P 500 que exigem programas aritméticos de múltiplas etapas. Os modelos neurais pontuaram 61% no lançamento, contra 91% dos especialistas humanos; a precisão cai para 22% em programas de três ou mais etapas. Os modos de falha — constantes de domínio, ancoragem de cross-modality, comprimento da cadeia — mapeiam-se diretamente aos desafios que os agentes Beancount enfrentam hoje.

machine-learning

llm

May 12, 2026·mike

FinanceBench: Por que o RAG com Vector-Store falha em documentos financeiros reais

O FinanceBench avalia 16 configurações de IA em 10.231 perguntas de registros reais da SEC; o RAG com vector-store compartilhado responde corretamente apenas 19% das vezes, e até mesmo o GPT-4-Turbo com a passagem oráculo alcança apenas 85% de precisão — demonstrando que o raciocínio numérico, e não a recuperação, é a restrição limitante para a IA em finanças corporativas.

llm

machine-learning

May 11, 2026·mike

DSPy: Substituindo Engenharia de Prompt Frágil por Pipelines de LLM Compilados

O DSPy substitui strings de prompts artesanais por assinaturas declarativas e um compilador orientado por métricas — aumentando o desempenho do Llama2-13b de 9,4% para 46,9% no raciocínio matemático GSM8K e oferecendo um caminho mais sustentável para pipelines de IA financeira em produção.

llm

machine-learning

May 10, 2026·mike

LATS: Language Agent Tree Search — Raciocínio, Ação e Planejamento em um Único Framework

O LATS (Language Agent Tree Search, ICML 2024) unifica ReAct, Tree of Thoughts e Reflexion em um único framework MCTS, alcançando 92,7% de pass@1 no HumanEval com GPT-4. Para livros contábeis do Beancount baseados em git, o requisito de reversão de estado que limita o LATS em ambientes de produção é trivialmente satisfeito.

llm

machine-learning

May 9, 2026·mike

Self-RAG: Recuperação Adaptativa e Autocrítica para LLMs

O Self-RAG (ICLR 2024 Oral) treina um modelo de linguagem para decidir quando recuperar informações e, em seguida, avaliar seus próprios resultados usando quatro tokens de reflexão — alcançando 55,8% no PopQA e 80,2 de FactScore em biografias, superando o ChatGPT em cinco benchmarks. A análise abrange o mecanismo, resultados de ablação, limites de reprodutibilidade e implicações para agentes de IA financeira sobre livros contábeis do Beancount.

machine-learning

llm

May 8, 2026·mike

Voyager: Bibliotecas de Habilidades como Base para o Aprendizado Contínuo de Agentes de IA

Voyager, um agente de Minecraft baseado em GPT-4 da NVIDIA e Caltech, demonstra que uma biblioteca persistente de habilidades de código permite um aprendizado contínuo genuíno sem ajuste fino — descobrindo 3,3 vezes mais itens do que o estado da arte anterior. O padrão mapeia-se diretamente para a automação de livros contábeis Beancount de longo prazo, embora a correção financeira exija camadas de teste que os sandboxes de jogos nunca requerem.

llm

machine-learning

May 7, 2026·mike

HippoRAG: Memória de Longo Prazo para LLMs Inspirada na Neurobiologia

HippoRAG (NeurIPS 2024) constrói um grafo de conhecimento a partir de triplas OpenIE e aplica o PageRank Personalizado no momento da consulta, atingindo 89,1% de Recall@5 no 2WikiMultiHopQA contra 68,2% do ColBERTv2 — com implicações diretas para a consulta de livros contábeis financeiros complexos em históricos de transações plurianuais.

llm

machine-learning

May 6, 2026·mike

AgentBench: Avaliando LLMs como Agentes — Lições para a Confiabilidade da IA em Finanças

O AgentBench (Liu et al., ICLR 2024) avalia 27 LLMs em 8 ambientes interativos — o GPT-4 obteve 4,01 no geral contra 0,96 do melhor modelo de código aberto. Os três principais modos de falha (limite de tarefa excedido em 67,9% das falhas de grafo de conhecimento, erros de formato em 53,3% das falhas de banco de dados e ações inválidas) mapeiam-se diretamente nos riscos de implantar um agente de gravação do Beancount em um livro-razão real.

llm

machine-learning

May 5, 2026·mike

BloombergGPT e os Limites de LLMs de Domínio Específico em Finanças

A Bloomberg treinou um LLM de 50 bilhões de parâmetros em 569 bilhões de tokens de dados financeiros e superou modelos gerais em benchmarks de sentimento e raciocínio de tabelas — então o GPT-4 o igualou sem qualquer pré-treinamento específico para finanças. O que o experimento de US$ 10 milhões revela sobre os trade-offs de pré-treinamento de domínio, a tokenização de números e por que o uso de ferramentas é mais confiável do que os componentes internos do modelo para agentes de contabilidade.

llm

machine-learning

May 4, 2026·mike

AutoGen: Frameworks de Conversação Multagentes para IA Financeira

O AutoGen (Wu et al., 2023) apresenta um framework de conversação multagentes onde agentes baseados em LLM trocam mensagens para concluir tarefas; uma configuração de dois agentes eleva a precisão no benchmark MATH de 55% para 69%, e um agente SafeGuard dedicado melhora a detecção de código inseguro em até 35 pontos F1 — descobertas diretamente aplicáveis à construção de pipelines de automação seguros e modulares para o Beancount.

llm

automation

May 3, 2026·mike

Gorilla: Como o Treinamento Consciente de Recuperação Reduz as Alucinações de APIs em LLMs de 78% para 11%

O Gorilla (Patil et al., NeurIPS 2024) faz o ajuste fino de um modelo LLaMA de 7B com Treinamento Consciente de Recuperação (Retriever-Aware Training) em documentação de API recuperada, reduzindo as taxas de alucinação de 78% para 11% em relação ao GPT-4 zero-shot — com implicações diretas para agentes de IA financeira de gravação, onde nomes de contas incorretos ou sinais invertidos são falhas de integridade, não apenas incômodos.

llm

machine-learning

May 2, 2026·mike

MemGPT: Gerenciamento de Contexto Virtual para Agentes de LLM

O MemGPT aplica a paginação de memória virtual do estilo de sistemas operacionais a LLMs, usando armazenamento em três níveis — memória de trabalho, recuperação e arquivamento — para dar aos agentes uma lembrança persistente entre sessões; em benchmarks de chat multissessão, o MemGPT com GPT-4 atinge 92,5% de precisão contra uma linha de base de contexto fixo de 32,1%.

llm

machine-learning

Mostrando 61–72 de 87 publicações

Anterior6 / 8Próximo