MemGPT는 OS 스타일의 가상 메모리 페이징을 LLM에 적용하여 작업 메모리, 회상 메모리, 아카이브 메모리의 3계층 저장소를 사용해 에이전트에게 세션 간 지속적인 회상 능력을 부여합니다. 멀티 세션 채팅 벤치마크에서 MemGPT는 GPT-4를 활용해 92.5%의 정확도를 달성했으며, 이는 32.1%의 고정 컨텍스트 베이스라인과 대조됩니다.
SWE-agent(NeurIPS 2024)는 LLM과 소프트웨어 환경 사이의 전용 레이어인 에이전트-컴퓨터 인터페이스(ACI)를 도입하여, 원시 셸(raw shell) 접근 방식보다 10.7%포인트 향상된 성능을 보였으며 GPT-4 Turbo를 통해 SWE-bench에서 12.47%의 해결률을 기록했습니다. 자율 코딩 에이전트의 주요 병목 현상은 모델의 능력이 아니라 인터페이스 디자인입니다.
SWE-bench는 실행 기반 테스트를 사용 하여 12개의 Python 저장소에 걸친 2,294개의 실제 GitHub 이슈에 대해 언어 모델을 평가합니다. 발표 당시 Claude 2는 현실적인 검색 환경에서 이슈의 1.96%만을 해결하며 코딩 에이전트의 사실상 표준 벤치마크로 자리 잡았습니다. 또한 Beancount 쓰기 자동화(write-back) 에이전트와 직접적으로 관련된 검색 및 패치 길이 실패 모드를 밝혀냈습니다.
CodeAct(ICML 2024)는 JSON 도구 호출을 실행 가능한 파이썬 코드로 대체하여 다중 도구 작업에서 GPT-4 에이전트 성공률을 약 20%포인트 향상시키고 상호 작용 횟수를 30% 줄였습니다. 이는 신뢰할 수 있는 Beancount 대조 에이전트 구축에 직접적인 시사점을 제공합니다.
Huang 등의 연구(ICLR 2024)는 외부 피드백 없이 LLM에게 스스로의 추론을 검토하게 하면 일관되게 정확도가 떨어진다는 것을 보여줍니다. GSM8K에서 GPT-4는 95.5%에서 91.5%로 하락했습니다. 이 결 과가 신뢰할 수 있는 Beancount 분개장 입력 에이전트를 설계하는 데 어떤 의미를 갖는지 설명합니다.
생각의 나무(Tree of Thoughts, ToT)는 LLM 추론을 가지치기와 백트래킹이 가능한 분기형 검색 트리로 구조화하여, 24 게임(Game of 24)에서 표준 GPT-4 CoT의 4% 대비 74%의 성공률을 달성했습니다. 이는 Beancount 워크플로우의 다단계 금융 분류 및 세금 최적화에 직접적인 시사점을 제공합니다.
CRITIC(ICLR 2024)은 외부 도구 신호를 바탕으로 LLM 수정을 수행하여 오픈 도메인 QA에서 7.7 F1 점수 향상과 79.2%의 유해성 감소를 달성했습니다. 이는 Beancount 금융 에이전트의 기록 안전성(write-back safety)에 직접 적용할 수 있는 '검증 후 수정' 루프입니다.
Reflexion(NeurIPS 2023)은 LLM 에이전트가 에피소드 버퍼에 언어적 사후 분석을 저장함으로써 가중치 업데이트 없이 성능을 향상시킬 수 있게 합니다. GPT-4를 사용해 HumanEval에서 91%를 달성했지만 WebShop에서는 실패했는데, 이는 언어적 강화가 평가자가 명확하고 실행 가능한 신호를 생성할 때만 작동한다는 구조적 제약을 드러냅니다. 자가 수정 Beancount 장부 에이전트를 구축하는 데 있어 이것이 무엇을 의미하는지 알아봅니다.
자기 일관성은 탐욕적 생각의 사슬(Greedy Chain-of-Thought) 디코딩을 N개의 샘플링된 추론 경로에 대한 다수결로 대체하여, 별도의 미세 조정 없이 GSM8K 데이터셋에서 GPT-3의 정확도를 17.9%포인트 향상시키며, 단일 LLM 디코딩을 신뢰할 수 없는 다단계 금융 계산에 직접 적용할 수 있습니다.