본문으로 건너뛰기
Plain-Text Accounting

모든 것에 대하여 Plain-Text Accounting

33개의 기사
Research grounded in plain-text accounting formats and workflows

LLM 에이전트를 위한 불확실성 기반 위임: 소형 모델에서 대형 모델로 전환하는 시점

ReDAct는 기본적으로 소형 모델을 실행하고 토큰 수준의 퍼플렉시티(perplexity)가 불확실성을 나타낼 때만 고가의 모델로 에스컬레이션합니다. 이를 통해 GPT-5.2 단독 사용 대비 정확도는 유지하거나 상회하면서도 64%의 비용을 절감하며, 이는 Beancount 거래 분류 에이전트에 직접 적용 가능한 패턴입니다.

OpenHands: AI 소프트웨어 에이전트를 위한 개방형 플랫폼과 금융 자동화에 시사하는 점

OpenHands는 MIT 라이선스 기반의 Docker 샌드박스 에이전트 플랫폼으로, CodeAct가 SWE-Bench Lite에서 26%의 성능을 기록했습니다. 이는 현재 AI 에이전트가 안정적으로 수행할 수 있는 수준을 보여주는 냉정한 지표이며, 초기 금융 분야의 실질적인 배포가 자율적인 형태보다는 명확하게 정의된 범위 내에서 이루어져야 하는 이유를 설명합니다.

Beancount DSL 생성에서 LLM 점수 2.3%: LLMFinLiteracy 벤치마크

LLMFinLiteracy 벤치마크에 따르면 5개의 약 7B 규모 공개 가중치 모델이 완전히 정확한 Beancount 트랜잭션을 생성할 확률은 2.3%에 불과했습니다. 실패 원인은 구문이 아닌 회계적 추론에 집중되어 있으며, 이는 신뢰할 수 있는 라이트백(write-back) 에이전트를 위해 루프 내 컴파일러(compiler-in-the-loop) 피드백이 핵심적인 요소임을 시사합니다.

TableMaster: LLM을 활용한 표 이해를 위한 적응형 추론

TableMaster는 집중 표(table-of-focus) 추출, 의미론적 구어화, 텍스트와 기호 추론 간의 적응형 전환을 결합하여 GPT-4o-mini 기준 WikiTQ에서 Chain-of-Table보다 13점 높은 78.13%를 달성한 프롬프팅 전용 파이프라인입니다. 이 아키텍처가 Beancount와 같은 재무 장부를 다루는 AI 에이전트에 어떤 의미를 갖는지 살펴봅니다.

τ²-bench: 대화형 AI 에이전트의 이중 제어 비용 측정

τ²-bench는 AI와 사용자 모두가 공유된 상태에서 도구를 호출하는 이중 제어 환경으로 에이전트 벤치마킹을 확장합니다. 연구 결과, 활성 사용자가 개입할 경우 성공률이 18~25% 포인트 하락하며, 이는 인간 사용자와 쓰기 권한을 공유하는 Beancount 에이전트에 직접적인 시사점을 제공합니다.

GAIA 벤치마크: 프런티어 AI 에이전트의 실제 수행 능력 측정

GAIA는 세 가지 난이도 수준에 걸쳐 466개의 실제 작업에 대한 벤치마크를 수행합니다. 2026년 중반 기준 프런티어 에이전트는 74.55%의 정확도를 기록한 반면 인간은 92%를 기록했으며, 남아 있는 레벨 3의 격차는 자동화된 Beancount 장부 워크플로의 다단계 조정 과제와 직접적으로 연결됩니다.

WorkArena: LLM 웹 에이전트가 실제 기업 지식 업무에서 보여주는 성능

WorkArena는 33개의 실제 ServiceNow 작업을 통해 LLM 웹 에이전트를 벤치마킹합니다. GPT-4o는 전체 42.7%의 성공률을 기록했지만 리스트 필터링 작업에서는 0%를 기록하며, 폼 입력과 구조화된 UI 상호작용 사이의 명확한 한계를 드러냈습니다. 이는 Beancount 장부 자동화의 도전 과제와 직접적으로 연결되는 문제입니다.

τ-bench: 실제 도구 사용 도메인에서의 AI 에이전트 신뢰도 측정

τ-bench는 Claude 3.5 Sonnet과 같은 최상위 LLM이 소매 고객 서비스 작업에서 pass@1 0.692에서 pass@4 0.462로 떨어진다는 점을 보여줍니다. 이는 Beancount 원장에서 작동하는 모든 쓰기 가능(write-back) 에이전트에게 직접적인 시사점을 주는 일관성의 절벽(consistency cliff)을 나타냅니다.

Chain-of-Table: LLM 추론 체인에서의 테이블 진화

Chain-of-Table (ICLR 2024)는 테이블 자체를 중간 상태로 진화시켜 LLM의 표 형식 추론을 개선합니다. WikiTQ에서 기존 베이스라인의 61.48% 대비 67.31%의 정확도를 달성했으며, 4,000 토큰을 초과하는 테이블에서 +10.25포인트의 이점을 보여 Beancount 원장 쿼리 에이전트에 직접 적용 가능합니다.