4 publicações com a etiqueta "Open Source"

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: Plataforma Aberta para Agentes de Software de IA e o que Isso Significa para a Automação Financeira

OpenHands é uma plataforma de agentes com sandbox Docker e licença MIT onde o CodeAct atinge 26% no SWE-Bench Lite — um benchmark sóbrio que estabelece o que os agentes de IA podem fazer de forma confiável hoje, e por que as primeiras implantações financeiras produtivas devem ser estritamente delimitadas em vez de autônomas.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: O Benchmark de 812 Tarefas que Mede o que Agentes Web Realmente Podem e Não Podem Fazer

O GPT-4 conclui apenas 14,41% das 812 tarefas web realistas do WebArena, enquanto humanos atingem 78,24%; o principal modo de falha é a falsa inviabilidade — recusa conservadora de agir — com implicações diretas para qualquer agente que opere o Fava ou interfaces web financeiras.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Pode um Modelo Aberto de 7B Igualar o GPT-4 na Compreensão de Tabelas?

O TableLlama faz o ajuste fino do Llama 2 (7B) em 2,6 milhões de exemplos de tarefas de tabela e supera o GPT-4 em tarefas estruturais como anotação de tipo de coluna (F1 94 vs 32), mas fica 33 pontos atrás no raciocínio composicional do WikiTQ — um benchmark calibrado para o que os modelos abertos de 7B podem e não podem fazer na IA financeira hoje.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: Como o Design de Interface Desbloqueia a Engenharia de Software Automatizada

O SWE-agent (NeurIPS 2024) introduz as Interfaces Agente-Computador (ACIs) — camadas projetadas especificamente entre LLMs e ambientes de software — mostrando uma melhoria de 10,7 pontos percentuais em relação ao acesso bruto ao shell e 12,47% de resolução no SWE-bench com GPT-4 Turbo. O design da interface, e não a capacidade do modelo, é o principal gargalo para agentes de codificação autônomos.

Tudo Sobre Open Source

OpenHands: Plataforma Aberta para Agentes de Software de IA e o que Isso Significa para a Automação Financeira

WebArena: O Benchmark de 812 Tarefas que Mede o que Agentes Web Realmente Podem e Não Podem Fazer

TableLlama: Pode um Modelo Aberto de 7B Igualar o GPT-4 na Compreensão de Tabelas?

SWE-agent: Como o Design de Interface Desbloqueia a Engenharia de Software Automatizada

Comece a usar o Beancount.io

Primeiros Passos

Recursos

Comunidade

Jurídico