LLM 에이전트를 위한 불확실성 기반 위임: 소형 모델에서 대형 모델로 전환하는 시점
ReDAct는 기본적으로 소형 모델을 실행하고 토큰 수준의 퍼플렉시티(perplexity)가 불확실성을 나타낼 때만 고가의 모델로 에스컬레이션합니다. 이를 통해 GPT-5.2 단독 사용 대비 정확도는 유지하거나 상회하면서도 64%의 비용을 절감하며, 이는 Beancount 거래 분류 에이전트에 직접 적용 가능한 패턴입니다.
ReDAct는 기본적으로 소형 모델을 실행하고 토큰 수준의 퍼플렉시티(perplexity)가 불확실성을 나타낼 때만 고가의 모델로 에스컬레이션합니다. 이를 통해 GPT-5.2 단독 사용 대비 정확도는 유지하거나 상회하면서도 64%의 비용을 절감하며, 이는 Beancount 거래 분류 에이전트에 직접 적용 가능한 패턴입니다.
InvestorBench (ACL 2025)는 QA 정확도가 아닌 누적 수익률과 샤프 지수를 사용하여 주식, 암호화폐, ETF 거래 백테스트를 통해 13개의 LLM 백본을 테스트합니다. Qwen2.5-72B는 주식 리더보드에서 46.15%의 누적 수익률(CR)로 1위를 차지했습니다. 금융 전문 미세 조정 모델은 주식에서 오히려 역효과를 냈으며, 모델 크기가 도메인 미세 조정보다 성능을 더 확실하게 예측하는 것으로 나타났습니다.
LATS(Language Agent Tree Search, ICML 2024)는 ReAct, Tree of Thoughts, Reflexion을 단일 MCTS 프레임워크로 통합하여 GPT-4와 함께 HumanEval에서 92.7%의 pass@1을 달성했습니다. Git 기반의 Beancount 장부의 경우, 운영 환경에서 LATS를 제한하는 상태 복원 요구 사항을 아주 쉽게 충족할 수 있습니다.
생각의 나무(Tree of Thoughts, ToT)는 LLM 추론을 가지치기와 백트래킹이 가능한 분기형 검색 트리로 구조화하여, 24 게임(Game of 24)에서 표준 GPT-4 CoT의 4% 대비 74%의 성공률을 달성했습니다. 이는 Beancount 워크플로우의 다단계 금융 분류 및 세금 최적화에 직접적인 시사점을 제공합니다.