7 publicações com a etiqueta "Developers"

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Plataforma Aberta para Agentes de Software de IA e o que Isso Significa para a Automação Financeira

OpenHands é uma plataforma de agentes com sandbox Docker e licença MIT onde o CodeAct atinge 26% no SWE-Bench Lite — um benchmark sóbrio que estabelece o que os agentes de IA podem fazer de forma confiável hoje, e por que as primeiras implantações financeiras produtivas devem ser estritamente delimitadas em vez de autônomas.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: Raciocínio de Políticas de Segurança Verificáveis para Agentes de LLM

O ShieldAgent (ICML 2025) substitui os guardrails baseados em LLM por circuitos de regras probabilísticas construídos em Redes Lógicas de Markov, alcançando 90,4% de precisão em ataques de agentes com 64,7% menos chamadas de API — e o que isso significa para a segurança verificável em sistemas de IA financeira.

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

Ajuste Fino vs. RAG: Por Que a Recuperação Vence ao Injetar Novos Conhecimentos em LLMs

Uma comparação empírica de RAG vs. ajuste fino não supervisionado em LLMs de 7 bilhões de parâmetros mostra que o RAG alcança mais de 0,875 de precisão em fatos pós-treinamento, enquanto o ajuste fino estabiliza em 0,504 — com implicações diretas para o design de agentes Beancount e qualquer sistema que exija atualizações frequentes de conhecimento.

AILLMMachine LearningAutomationPython APIDevelopersBeancount

Gorilla: Como o Treinamento Consciente de Recuperação Reduz as Alucinações de APIs em LLMs de 78% para 11%

O Gorilla (Patil et al., NeurIPS 2024) faz o ajuste fino de um modelo LLaMA de 7B com Treinamento Consciente de Recuperação (Retriever-Aware Training) em documentação de API recuperada, reduzindo as taxas de alucinação de 78% para 11% em relação ao GPT-4 zero-shot — com implicações diretas para agentes de IA financeira de gravação, onde nomes de contas incorretos ou sinais invertidos são falhas de integridade, não apenas incômodos.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Como o Design de Interface Desbloqueia a Engenharia de Software Automatizada

O SWE-agent (NeurIPS 2024) introduz as Interfaces Agente-Computador (ACIs) — camadas projetadas especificamente entre LLMs e ambientes de software — mostrando uma melhoria de 10,7 pontos percentuais em relação ao acesso bruto ao shell e 12,47% de resolução no SWE-bench com GPT-4 Turbo. O design da interface, e não a capacidade do modelo, é o principal gargalo para agentes de codificação autônomos.

AILLMMachine LearningBeancountAutomationDevelopersPlain-Text Accounting

SWE-bench: Modelos de Linguagem Conseguem Resolver Problemas Reais do GitHub?

O SWE-bench avalia modelos de linguagem em 2.294 problemas reais do GitHub em 12 repositórios Python usando testes baseados em execução; na publicação, o Claude 2 resolveu apenas 1,96% dos problemas com recuperação realista, estabelecendo o benchmark de fato para agentes de codificação e revelando modos de falha de recuperação e comprimento de patch diretamente relevantes para agentes de write-back do Beancount.

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer: Uso de Ferramentas Autossupervisionado e seus Limites para IA Financeira

Uma leitura detalhada do Toolformer (Meta AI, NeurIPS 2023): como o treinamento autossupervisionado filtrado por perplexidade ensina um modelo de 6,7B de parâmetros a chamar APIs externas, onde ele supera o GPT-3 175B em benchmarks aritméticos, e por que sua arquitetura de etapa única não suporta as chamadas de ferramentas encadeadas necessárias para operações de razão estruturadas.

Tudo Sobre Developers

OpenHands: Plataforma Aberta para Agentes de Software de IA e o que Isso Significa para a Automação Financeira

ShieldAgent: Raciocínio de Políticas de Segurança Verificáveis para Agentes de LLM

Ajuste Fino vs. RAG: Por Que a Recuperação Vence ao Injetar Novos Conhecimentos em LLMs

Gorilla: Como o Treinamento Consciente de Recuperação Reduz as Alucinações de APIs em LLMs de 78% para 11%

SWE-agent: Como o Design de Interface Desbloqueia a Engenharia de Software Automatizada

SWE-bench: Modelos de Linguagem Conseguem Resolver Problemas Reais do GitHub?

Toolformer: Uso de Ferramentas Autossupervisionado e seus Limites para IA Financeira

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico