LLM 에이전트를 위한 불확실성 기반 위임: 소형 모델에서 대형 모델로 전환하는 시점

2026년 7월 1일 · 약 6분

Mike Thrift

Marketing Manager

자율형 에이전트가 저렴하면서도 신뢰할 수 있어야 한다는 압박은 서로 상충하는 방향으로 작용합니다. 최첨단 모델은 신뢰할 수 있지만 비싸고, 소형 모델은 저렴하지만 오류가 발생하기 쉽습니다. Piatrashyn 등의 ReDAct 논문(arXiv:2604.07036)은 기본적으로 소형 모델을 실행하고 소형 모델이 불확실할 때만 대형 모델로 위임하는 중간 경로를 제안합니다. 필자가 이 논문을 읽는 이유는 모든 실무용 Beancount 라이트백(write-back) 에이전트가 동일한 딜레마를 겪기 때문입니다. 즉, 일상적인 분류는 저렴하게 처리하면서도, 장부를 오염시키기 전에 명확하지 않은 사례를 에스컬레이션하기를 원하기 때문입니다.

논문 소개

2026-07-01-redact-uncertainty-aware-deferral-llm-agents

ReDAct(Reason-Defer-Act)는 ReAct 프롬프팅 패러다임을 기반으로 하며 이중 모델 에이전트 아키텍처를 도입합니다. Qwen3-80B, Llama3.3-70B 또는 Llama4-Maverick과 같은 저렴한 소형 모델이 기본적으로 모든 단계를 처리합니다. 각 단계에서 모델은 추론 과정을 생성한 다음 액션을 생성합니다. 시스템은 액션 생성 단계에 대해서만 토큰 수준의 불확실성을 측정하고 이를 보정된 임계값과 비교합니다. 불확실성이 임계값을 초과하면 대형 모델(GPT-5.2, Qwen3-235B 또는 Qwen3-480B)이 해당 단계를 다시 실행하고, 그렇지 않으면 소형 모델의 액션이 실행됩니다.

불확실성 측정은 정보 이론적이며 토큰 수준의 로그 확률(log-probabilities)만 필요로 합니다: 시퀀스 확률(음의 로그 확률 합계), 퍼플렉시티(길이 정규화됨), 평균 토큰 엔트로피(토큰 위치 전반의 평균 엔트로피). 임계값은 에피소드당 목표 대형 모델 호출 횟수 K를 생성하는 값을 선택함으로써 소형 모델 롤아웃의 홀드아웃(held-out) 세트로부터 보정됩니다.

주요 개념

추론 단계가 아닌 액션 단계에서 불확실성을 측정하십시오. 2,411개의 ALFWorld 단계를 대상으로 한 보조 실험에서 추론 수준의 불확실성은 정답과 오답 단계를 구별하는 능력이 떨어지는 것으로 나타났습니다. 반면 액션 수준의 퍼플렉시티는 정확도의 예측 지표로서 측정 가능한 더 높은 ROC-AUC 및 PRR을 보였습니다.
Qwen3-80B + GPT-5.2를 사용한 퍼플렉시티 위임은 ALFWorld에서 80.8% ± 1.1%를 달성하여 GPT-5.2 단독(78.3% ± 1.9%) 성과를 상회하면서도 비용은 $45.21 대비 $16.25로 약 64% 저렴했습니다.
실제로는 대략 10%의 보정 목표를 맞추기 위해 약 15%의 단계가 위임됩니다. 실패한(더 짧은) 궤적이 위임 예산에 불균형적으로 기여하기 때문에 이러한 차이가 발생합니다.
동일한 비율의 무작위 위임은 77.0%를 기록했습니다. 이는 소형 모델만 사용했을 때(68.3%)보다 낫지만, 불확실성 정량화(UQ) 기반 위임보다는 낮습니다. 단순히 대형 모델을 더 많이 호출하는 것뿐만 아니라 불확실성 신호 자체가 실제로 중요합니다.
MiniGrid는 개선의 여지가 적습니다. 퍼플렉시티 위임을 사용한 Qwen3-80B + GPT-5.2는 95.0%를 기록한 반면 GPT-5.2 단독은 99.0%를 기록했습니다. 작업 어휘가 적을수록 소형 모델이 구조적으로 부적절할 때 위임 방식의 한계가 더 뚜렷해집니다.
위임 분포는 작업에 따라 다릅니다. ALFWorld는 후반 단계(프롬프트 이력이 더 긴 경우)에서 더 많이 위임하는 반면, MiniGrid는 에이전트의 초기 위치와 연관된 이봉형(bimodal) 패턴을 보입니다. 이는 고정된 임계값 보정이 작업군 내에서는 잘 일반화되지만 서로 다른 작업군 사이에서는 그렇지 않음을 의미합니다.

유효한 점과 그렇지 않은 점

핵심적인 실증 결과는 신뢰할 수 있습니다. 액션 문자열에 대한 퍼플렉시티는 특정 단계가 잘못될지 여부를 판단하는 합리적인 대리 지표입니다. ReAct의 추론/행동 분해는 불확실성 신호를 부착할 수 있는 명확한 지점을 자연스럽게 제공하며, 보조적인 정확도 예측 실험은 설계 선택에 대한 진정한 메커니즘적 근거를 제공합니다.

납득하기 어려운 부분은 ALFWorld에서의 "대형 모델 단독 성능 초과" 결과입니다. 80.8% ± 1.1%와 78.3% ± 1.9%는 표준 편차 범위 내에서 겹칩니다. 저자들은 이를 상호 보완적인 강점(소형 모델이 대형 모델의 가끔 발생하는 모험 없이 일상적인 단계를 처리함) 덕분이라고 주장하지만, 이 설명을 검증하기 위한 단계별 절제 실험(ablation)은 없습니다. 단순히 노이즈일 수도 있습니다.

벤치마크 선택도 제한적입니다. ALFWorld와 MiniGrid는 텍스트 기반의 가정 시뮬레이션 및 그리드 월드 탐색으로, 도구 호출, 코드 실행 또는 다중 문서 검색을 수행하지 않는 좁은 환경입니다. 불확실성 보정 위임이 이러한 더 풍부한 환경(Beancount와 관련된 환경)에서도 유지될지는 미지수입니다. 또한 대형 모델로 GPT-5.2를 선택한 점은 비용 수치를 재현하기 어렵게 만듭니다.

보정 절차에는 해결되지 않은 순환 논리가 있습니다. 임계값은 보정된 것과 동일한 분포에서 선택되며 별도의 검증 세트가 없습니다. 저자들은 보정(소형 모델 롤아웃)과 평가(하이브리드 롤아웃) 사이의 분포 변화(distribution shift)를 인정하지만, 임계값의 견고함은 향후 과제로 남겨두었습니다.

금융 AI에 이것이 중요한 이유

Beancount 라이트백 에이전트는 모든 거래에서 정확히 동일한 위임 문제에 직면합니다. 일상적인 식료품 구매는 분류가 필요하지만, 메모가 부분적으로만 일치하는 특이한 다단계 외화 스왑은 사람이 확인해야 합니다. 현재의 관행은 전체 자동화(위험함) 또는 전체 수동 검토(비쌈) 중 하나입니다. ReDAct의 프레임워크는 다룰 수 있는 중간 지대를 제시합니다. 즉, 저렴한 모델을 실행하고 후보 저널 엔트리(journal entry)에 대한 퍼플렉시티가 보정된 임계값을 초과할 때만 에스컬레이션하는 것입니다.

금융 상황에서는 논문에서 다루지 않은 두 가지 고려 사항이 추가됩니다. 첫째, 여기서의 위임은 더 큰 LLM을 호출하는 것이 아니라 일시 중지하고 사용자에게 묻는 것을 의미해야 합니다. 장부의 정확성 기준은 벤치마크 점수가 아니라 사용자의 의도이기 때문입니다. 둘째, 확정된 Beancount 엔트리의 비가역성은 ALFWorld에서 물건을 잘못 놓는 것보다 훨씬 높습니다. 보정 목표 K는 아마도 소형 모델의 정밀도(precision)가 낮아지기 전에 미리 위임하도록 보수적으로 조정되어야 할 것입니다.

이러한 주의 사항에도 불구하고 64%의 비용 절감 신호는 진지하게 받아들일 가치가 있습니다. Beancount 에이전트가 한 달 치 거래를 처리할 때 분류 결정의 15%만 고가 모델이 필요하다면, 성능이 뛰어난 라이트백 에이전트를 운영하는 경제성은 훨씬 좋아집니다.

더 읽어볼 거리

KnowNo (Ren et al., 2023, CoRL): "도움을 요청하는 로봇: 대규모 언어 모델 플래너를 위한 불확실성 정렬" — 컨포멀 예측(conformal prediction)을 사용하여 도움을 요청할 시기에 대한 커버리지(coverage) 보장을 보정합니다. ReDAct는 이와 비교하지 않았는데, 프로덕션 방식을 선택하기 전에 컨포멀 보장과 임계값 보정 사이의 절충점을 이해하는 것이 중요합니다. [arXiv:2307.01928]
대규모 언어 모델의 신뢰도 추정 및 보정에 관한 설문 조사 (Guo et al. updated, NAACL 2024) — 언어화된 신뢰도, 샘플링 기반 및 사후 보정 방법에 대한 체계적인 분류를 제공합니다. 퍼플렉시티가 적절한 불확실성 대리 지표인지, 아니면 보정된 로짓 스케일링(logit scaling)이 더 나은 성능을 보일지 결정하기 위한 이론적 배경입니다. [arXiv:2311.08298]
UALA: 불확실성 인지 언어 에이전트 (Han, Buntine, Shareghi) — 구조적으로 유사한 불확실성 임계값을 도구 호출 결정(도구 사용 vs 모델 지식에 의존)에 적용하여 도구 호출을 50% 이상 줄입니다. 에이전트 불확실성의 도구 사용 축에 대해 ReDAct를 직접적으로 보완하는 연구입니다. [https://uala-agent.github.io/]

Share on Twitter Follow @beancount_io

LLM 에이전트를 위한 불확실성 기반 위임: 소형 모델에서 대형 모델로 전환하는 시점

논문 소개

주요 개념

유효한 점과 그렇지 않은 점

금융 AI에 이것이 중요한 이유

더 읽어볼 거리

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 소개​

주요 개념​

유효한 점과 그렇지 않은 점​

금융 AI에 이것이 중요한 이유​

더 읽어볼 거리​

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지

논문 소개

주요 개념

유효한 점과 그렇지 않은 점

금융 AI에 이것이 중요한 이유

더 읽어볼 거리