LLM 에이전트를 위한 불확실성 기반 위임: 소형 모델에서 대형 모델로 전환하는 시점
자율형 에이전트가 저렴하면서도 신뢰할 수 있어야 한다는 압박은 서로 상충하는 방향으로 작용합니다. 최첨단 모델은 신뢰할 수 있지만 비싸고, 소형 모델은 저렴하지만 오류가 발생하기 쉽습니다. Piatrashyn 등의 ReDAct 논문(arXiv:2604.07036)은 기본적으로 소형 모델을 실행하고 소형 모델이 불확실할 때만 대형 모델로 위임하는 중간 경로를 제안합니다. 필자가 이 논문을 읽는 이유는 모든 실무용 Beancount 라이트백(write-back) 에이전트가 동일한 딜레마를 겪기 때문입니다. 즉, 일상적인 분류는 저렴하게 처리하면서도, 장부를 오염시키기 전에 명확하지 않은 사례를 에스컬레이션하기를 원하기 때문입니다.
논문 소개
ReDAct(Reason-Defer-Act)는 ReAct 프롬프팅 패러다임을 기반으로 하며 이중 모델 에이전트 아키텍처를 도입합니다. Qwen3-80B, Llama3.3-70B 또는 Llama4-Maverick과 같은 저렴한 소형 모델이 기본적으로 모든 단계를 처리합니다. 각 단계에서 모델은 추론 과정을 생성한 다음 액션을 생성합니다. 시스템은 액션 생성 단계에 대해서만 토큰 수준의 불확실성을 측정하고 이를 보정된 임계값과 비교합니다. 불확실성이 임계값을 초과하면 대형 모델(GPT-5.2, Qwen3-235B 또는 Qwen3-480B)이 해당 단계를 다시 실행하고, 그렇지 않으면 소형 모델의 액션이 실행됩니다.
불확실성 측정은 정보 이론적이며 토큰 수준의 로그 확률(log-probabilities)만 필요로 합니다: 시퀀스 확률(음의 로그 확률 합계), 퍼플렉시티(길이 정규화됨), 평균 토큰 엔트로피(토큰 위치 전반의 평균 엔트로피). 임계값은 에피소드당 목표 대형 모델 호출 횟수 K를 생성하는 값을 선택함으로써 소형 모델 롤아웃의 홀드아웃(held-out) 세트로부터 보정됩니다.
주요 개념
- 추론 단계가 아닌 액션 단계에서 불확실성을 측정하십시오. 2,411개의 ALFWorld 단계를 대상으로 한 보조 실험에서 추론 수준의 불확실성은 정답과 오답 단계를 구별하는 능력이 떨어지는 것으로 나타났습니다. 반면 액션 수준의 퍼플렉시티는 정확도의 예측 지표로서 측정 가능한 더 높은 ROC-AUC 및 PRR을 보였습니다.
- Qwen3-80B + GPT-5.2를 사용한 퍼플렉시티 위임은 ALFWorld에서 80.8% ± 1.1%를 달성하여 GPT-5.2 단독(78.3% ± 1.9%) 성과를 상회하면서도 비용은 $45.21 대비 $16.25로 약 64% 저렴했습니다.
- 실제로는 대략 10%의 보정 목표를 맞추기 위해 약 15%의 단계가 위임됩니다. 실패한(더 짧은) 궤적이 위임 예산에 불균형적으로 기여하기 때문에 이러한 차이가 발생합니다.
- 동일한 비율의 무작위 위임은 77.0%를 기록했습니다. 이는 소형 모델만 사용했을 때(68.3%)보다 낫지만, 불확실성 정량화(UQ) 기반 위임보다는 낮습니다. 단순히 대형 모델을 더 많이 호출하는 것뿐만 아니라 불확실성 신호 자체가 실제로 중요합니다.
- MiniGrid는 개선의 여지가 적습니다. 퍼플렉시티 위임을 사용한 Qwen3-80B + GPT-5.2는 95.0%를 기록한 반면 GPT-5.2 단독은 99.0%를 기록했습니다. 작업 어휘가 적을수록 소형 모델이 구조적으로 부적절할 때 위임 방식의 한계가 더 뚜렷해집니다.
- 위임 분포는 작업에 따라 다릅니다. ALFWorld는 후반 단계(프롬프트 이력이 더 긴 경우)에서 더 많이 위임하는 반면, MiniGrid는 에이전트의 초기 위치와 연관된 이봉형(bimodal) 패턴을 보입니다. 이는 고정된 임계값 보정이 작업군 내에서는 잘 일반화되지만 서로 다른 작업군 사이에서는 그렇지 않음을 의미합니다.
유효한 점과 그렇지 않은 점
핵심적인 실증 결과는 신뢰할 수 있습니다. 액션 문자열에 대한 퍼플렉시티는 특정 단계가 잘못될지 여부를 판단 하는 합리적인 대리 지표입니다. ReAct의 추론/행동 분해는 불확실성 신호를 부착할 수 있는 명확한 지점을 자연스럽게 제공하며, 보조적인 정확도 예측 실험은 설계 선택에 대한 진정한 메커니즘적 근거를 제공합니다.
납득하기 어려운 부분은 ALFWorld에서의 "대형 모델 단독 성능 초과" 결과입니다. 80.8% ± 1.1%와 78.3% ± 1.9%는 표준 편차 범위 내에서 겹칩니다. 저자들은 이를 상호 보완적인 강점(소형 모델이 대형 모델의 가끔 발생하는 모험 없이 일상적인 단계를 처리함) 덕분이라고 주장하지만, 이 설명을 검증하기 위한 단계별 절제 실험(ablation)은 없습니다. 단순히 노이즈일 수도 있습니다.
벤치마크 선택도 제한적입니다. ALFWorld와 MiniGrid는 텍스트 기반의 가정 시뮬레이션 및 그리드 월드 탐색으로, 도구 호출, 코드 실행 또는 다중 문서 검색을 수행하지 않는 좁은 환경입니다. 불확실성 보정 위임이 이러한 더 풍부한 환경(Beancount와 관련된 환경)에서도 유지될지는 미지수입니다. 또한 대형 모델로 GPT-5.2를 선택한 점은 비용 수치를 재현하기 어렵게 만듭니다.
보정 절차에는 해결되지 않은 순환 논리가 있습니다. 임계값은 보정된 것과 동일한 분포에서 선택되며 별도의 검증 세트가 없습니다. 저자들은 보정(소형 모델 롤아웃)과 평가(하이브리드 롤아웃) 사이의 분포 변화(distribution shift)를 인정하지만, 임계값의 견고함은 향후 과제로 남겨두었습니다.