OpenHands는 MIT 라이선스 기반의 Docker 샌드박스 에이전트 플랫폼으로, CodeAct가 SWE-Bench Lite에서 26%의 성능을 기록했습니다. 이는 현재 AI 에이전트가 안정적으로 수행할 수 있는 수준을 보여주는 냉정한 지표이며, 초기 금융 분야의 실질적인 배포가 자율적인 형태보다는 명확하게 정의된 범위 내에서 이루어져야 하는 이유를 설명합니다.
ShieldAgent (ICML 2025)는 LLM 기반 가드레일을 마르코프 논리 네트워크 기반의 확률적 규칙 회로로 대체하여, 64.7% 적은 API 호출로 에이전트 공격에 대해 90.4%의 정확도를 달성했습니다. 이것이 금융 AI 시스템의 검증 가능한 안전성에 어떤 의미를 갖는지 살펴봅니다.
7B 파라미터 LLM을 대상으로 RAG와 비지도 파인튜닝을 실증 비교한 결과, RAG는 학습 중단 시점 이후의 사실에 대해 0.875 이상의 정확도를 달성한 반면 파인튜닝은 0.504에서 정체되었습니다. 이는 Beancount 에이전트 설계 및 빈번한 지식 업데이트가 필요한 시스템에 직접적인 시사점을 제공합니다.
Gorilla(Patil et al., NeurIPS 2024)는 리트리버 인식 학습(Retriever-Aware Training)을 통해 검색된 API 문서로 7B LLaMA 모델을 파인튜닝하여, GPT-4 제로샷 대비 환각률을 78%에서 11% 로 낮췄습니다. 이는 잘못된 계정 이름이나 뒤바뀐 부호가 단순한 불편함을 넘어 정확성 실패로 이어지는 금융 AI 라이트백(write-back) 에이전트에 직접적인 시사점을 제공합니다.
SWE-agent(NeurIPS 2024)는 LLM과 소프트웨어 환경 사이의 전용 레이어인 에이전트-컴퓨터 인터페이스(ACI)를 도입하여, 원시 셸(raw shell) 접근 방식보다 10.7%포인트 향상된 성능을 보였으며 GPT-4 Turbo를 통해 SWE-bench에서 12.47%의 해결률을 기록했습니다. 자율 코딩 에이전트의 주요 병목 현상은 모델의 능력이 아니라 인터페이스 디자인입니다.
SWE-bench는 실행 기반 테스트를 사용하여 12개의 Python 저장소 에 걸친 2,294개의 실제 GitHub 이슈에 대해 언어 모델을 평가합니다. 발표 당시 Claude 2는 현실적인 검색 환경에서 이슈의 1.96%만을 해결하며 코딩 에이전트의 사실상 표준 벤치마크로 자리 잡았습니다. 또한 Beancount 쓰기 자동화(write-back) 에이전트와 직접적으로 관련된 검색 및 패치 길이 실패 모드를 밝혀냈습니다.
Toolformer(Meta AI, NeurIPS 2023)를 자세히 분석합니다. 퍼플렉시티 필터링 기반의 자기 지도형 학습을 통해 67억 개의 파라미터를 가진 모델이 외부 API를 호출하는 법을 배우는 과정, 산술 벤치마크에서 1,750억 개의 파라미터를 가진 GPT-3를 능가하는 이유, 그리고 단일 단계 아키텍처가 구조화된 장부 작업에 필요한 연쇄적 도구 호출을 지원하지 못하는 이유를 다룹니다.