본문으로 건너뛰기
Decision-making

모든 것에 대하여 Decision-making

4개의 기사
Data-driven decision making with financial insights

LLM 에이전트를 위한 불확실성 기반 위임: 소형 모델에서 대형 모델로 전환하는 시점

ReDAct는 기본적으로 소형 모델을 실행하고 토큰 수준의 퍼플렉시티(perplexity)가 불확실성을 나타낼 때만 고가의 모델로 에스컬레이션합니다. 이를 통해 GPT-5.2 단독 사용 대비 정확도는 유지하거나 상회하면서도 64%의 비용을 절감하며, 이는 Beancount 거래 분류 에이전트에 직접 적용 가능한 패턴입니다.

InvestorBench: 금융 거래 결정에서의 LLM 에이전트 벤치마킹

InvestorBench (ACL 2025)는 QA 정확도가 아닌 누적 수익률과 샤프 지수를 사용하여 주식, 암호화폐, ETF 거래 백테스트를 통해 13개의 LLM 백본을 테스트합니다. Qwen2.5-72B는 주식 리더보드에서 46.15%의 누적 수익률(CR)로 1위를 차지했습니다. 금융 전문 미세 조정 모델은 주식에서 오히려 역효과를 냈으며, 모델 크기가 도메인 미세 조정보다 성능을 더 확실하게 예측하는 것으로 나타났습니다.

LATS: Language Agent Tree Search — 추론, 행동, 계획을 하나의 프레임워크로 통합

LATS(Language Agent Tree Search, ICML 2024)는 ReAct, Tree of Thoughts, Reflexion을 단일 MCTS 프레임워크로 통합하여 GPT-4와 함께 HumanEval에서 92.7%의 pass@1을 달성했습니다. Git 기반의 Beancount 장부의 경우, 운영 환경에서 LATS를 제한하는 상태 복원 요구 사항을 아주 쉽게 충족할 수 있습니다.

생각의 나무(Tree of Thoughts): LLM 검색을 통한 신중한 문제 해결

생각의 나무(Tree of Thoughts, ToT)는 LLM 추론을 가지치기와 백트래킹이 가능한 분기형 검색 트리로 구조화하여, 24 게임(Game of 24)에서 표준 GPT-4 CoT의 4% 대비 74%의 성공률을 달성했습니다. 이는 Beancount 워크플로우의 다단계 금융 분류 및 세금 최적화에 직접적인 시사점을 제공합니다.