"Open Source" 태그로 연결된 4개 게시물개의 게시물이 있습니다.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: AI 소프트웨어 에이전트를 위한 개방형 플랫폼과 금융 자동화에 시사하는 점

OpenHands는 MIT 라이선스 기반의 Docker 샌드박스 에이전트 플랫폼으로, CodeAct가 SWE-Bench Lite에서 26%의 성능을 기록했습니다. 이는 현재 AI 에이전트가 안정적으로 수행할 수 있는 수준을 보여주는 냉정한 지표이며, 초기 금융 분야의 실질적인 배포가 자율적인 형태보다는 명확하게 정의된 범위 내에서 이루어져야 하는 이유를 설명합니다.

AILLMAutomationMachine LearningBeancountFavaWeb InterfaceOpen Source

WebArena: 웹 에이전트의 실제 수행 능력과 한계를 측정하는 812개 작업 벤치마크

GPT-4는 WebArena의 812개 현실적인 웹 작업 중 14.41%만 완료하는 반면 인간은 78.24%에 도달합니다. 가장 지배적인 실패 모드는 '가짜 불가능성(false infeasibility)' — 즉, 보수적인 행동 거부 — 이며, 이는 Fava나 금융 웹 UI를 운영하는 에이전트에게 직접적인 시사점을 제공합니다.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: Can a 7B Open Model Match GPT-4 on Table Understanding?

TableLlama fine-tunes Llama 2 (7B) on 2.6M table-task examples and beats GPT-4 on structural tasks like column type annotation (F1 94 vs 32), but falls 33 points short on WikiTQ compositional reasoning — a calibrated benchmark for what 7B open models can and cannot do in finance AI today.

AILLMAutomationMachine LearningOpen SourceDevelopersPlain-Text AccountingBeancount

SWE-agent: 인터페이스 디자인이 자동화된 소프트웨어 엔지니어링을 구현하는 방법

SWE-agent(NeurIPS 2024)는 LLM과 소프트웨어 환경 사이의 전용 레이어인 에이전트-컴퓨터 인터페이스(ACI)를 도입하여, 원시 셸(raw shell) 접근 방식보다 10.7%포인트 향상된 성능을 보였으며 GPT-4 Turbo를 통해 SWE-bench에서 12.47%의 해결률을 기록했습니다. 자율 코딩 에이전트의 주요 병목 현상은 모델의 능력이 아니라 인터페이스 디자인입니다.

모든 것에 대하여 Open Source

OpenHands: AI 소프트웨어 에이전트를 위한 개방형 플랫폼과 금융 자동화에 시사하는 점

WebArena: 웹 에이전트의 실제 수행 능력과 한계를 측정하는 812개 작업 벤치마크

TableLlama: Can a 7B Open Model Match GPT-4 on Table Understanding?

SWE-agent: 인터페이스 디자인이 자동화된 소프트웨어 엔지니어링을 구현하는 방법

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지