Pular para o conteúdo principal
Developers

Tudo Sobre Developers

7 artigos
Developer resources, APIs, and integration documentation for finance tools

OpenHands: Plataforma Aberta para Agentes de Software de IA e o que Isso Significa para a Automação Financeira

OpenHands é uma plataforma de agentes com sandbox Docker e licença MIT onde o CodeAct atinge 26% no SWE-Bench Lite — um benchmark sóbrio que estabelece o que os agentes de IA podem fazer de forma confiável hoje, e por que as primeiras implantações financeiras produtivas devem ser estritamente delimitadas em vez de autônomas.

Ajuste Fino vs. RAG: Por Que a Recuperação Vence ao Injetar Novos Conhecimentos em LLMs

Uma comparação empírica de RAG vs. ajuste fino não supervisionado em LLMs de 7 bilhões de parâmetros mostra que o RAG alcança mais de 0,875 de precisão em fatos pós-treinamento, enquanto o ajuste fino estabiliza em 0,504 — com implicações diretas para o design de agentes Beancount e qualquer sistema que exija atualizações frequentes de conhecimento.

Gorilla: Como o Treinamento Consciente de Recuperação Reduz as Alucinações de APIs em LLMs de 78% para 11%

O Gorilla (Patil et al., NeurIPS 2024) faz o ajuste fino de um modelo LLaMA de 7B com Treinamento Consciente de Recuperação (Retriever-Aware Training) em documentação de API recuperada, reduzindo as taxas de alucinação de 78% para 11% em relação ao GPT-4 zero-shot — com implicações diretas para agentes de IA financeira de gravação, onde nomes de contas incorretos ou sinais invertidos são falhas de integridade, não apenas incômodos.

SWE-agent: Como o Design de Interface Desbloqueia a Engenharia de Software Automatizada

O SWE-agent (NeurIPS 2024) introduz as Interfaces Agente-Computador (ACIs) — camadas projetadas especificamente entre LLMs e ambientes de software — mostrando uma melhoria de 10,7 pontos percentuais em relação ao acesso bruto ao shell e 12,47% de resolução no SWE-bench com GPT-4 Turbo. O design da interface, e não a capacidade do modelo, é o principal gargalo para agentes de codificação autônomos.

SWE-bench: Modelos de Linguagem Conseguem Resolver Problemas Reais do GitHub?

O SWE-bench avalia modelos de linguagem em 2.294 problemas reais do GitHub em 12 repositórios Python usando testes baseados em execução; na publicação, o Claude 2 resolveu apenas 1,96% dos problemas com recuperação realista, estabelecendo o benchmark de fato para agentes de codificação e revelando modos de falha de recuperação e comprimento de patch diretamente relevantes para agentes de write-back do Beancount.

Toolformer: Uso de Ferramentas Autossupervisionado e seus Limites para IA Financeira

Uma leitura detalhada do Toolformer (Meta AI, NeurIPS 2023): como o treinamento autossupervisionado filtrado por perplexidade ensina um modelo de 6,7B de parâmetros a chamar APIs externas, onde ele supera o GPT-3 175B em benchmarks aritméticos, e por que sua arquitetura de etapa única não suporta as chamadas de ferramentas encadeadas necessárias para operações de razão estruturadas.