LLM의 신뢰도와 캘리브레이션: 연구 결과가 실제로 보여주는 것에 대한 서베이
지난주에 저는 저렴한 모델의 불확실성이 캘리브레이션된 임계값을 초과할 때 에이전트의 결정을 고가의 폴백 모델로 라우팅하는 ReDAct에 대해 다뤘습니다. 해당 논문은 "불확실성"에 대해 많은 부분을 모호하게 넘어가는데, 이 분야에서 불확실성을 측정하고 캘리브레이션하는 것에 대해 실제로 무엇이 알려져 있는지 잠시 멈추어 이해해 볼 가치가 있습니다. Geng 등의 "대규모 언어 모델의 신뢰도 추정 및 캘리브레이션에 관한 서베이"(NAACL 2024)는 무엇이 효과가 있고 무엇이 그렇지 않은지, 그리고 아직 아무도 측정하지 않은 것이 무엇인지에 대한 체계적인 분류를 제공하는 좋은 시작점입니다.
논문
Geng, Cai, Wang, Koeppl, Nakov, Gurevych는 객관식 QA부터 개방형 생성 및 기계 번역에 이르기까지 다양한 작업에서 LLM 신뢰도 추정 및 캘리브레이션에 관한 최신 문헌들을 조사했습니다. 핵심 문제: LLM은 매우 정확하면서도 외부에서는 구별하기 어려운 방식으로 완전히 신뢰할 수 없을 수도 있다는 점입니다. 이 서베이는 해결 공간을 모델 내부 상태에 대한 접근 권한을 활용하는 화이트박스(white-box) 방식과 모델을 불투명하게 취급하는 블랙박스(black-box) 방식이라는 두 가지 주요 분기로 정리하며, 각 분기 내에서 신뢰도를 추정하는 것과 사후적으로 캘리브레이션하는 것을 더 세분화하여 구분합니다.
이 논문은 NAACL 2024(6577~6595페이지)에서 발표되었으며, TU Darmstadt, MBZUAI, Mohamed bin Zayed University of AI의 팀이 2023년 11월 제출본을 2024년 3월에 개정한 것입니다.
주요 개념
-
로짓을 통한 화이트박스 신뢰도: 가장 간단한 접근 방식은 토큰 수준의 확률이나 길이에 따라 정규화된 로그 가능도를 신뢰도 신호로 사용하는 것입니다. 이러한 방법은 효과가 있지만 근본적인 모호함에 직면합니다. 낮은 토큰 확률은 사실 관계에 대한 낮은 신뢰도를 반영할 수도 있지만, 단순히 특이한 표현 방식일 수도 있습니다. 즉, 모델이 근본적인 사실에 대해서는 확신하면서도 단어 선택에 대해서는 확신하지 못할 수 있습니다.
-
일관성 기반 블랙박스 신뢰도(SelfCheckGPT): Manakul 등(EMNLP 2023)은 여러 개의 완결된 문장을 샘플링하고 BERTScore, NLI 또는 n-gram 중첩을 사용하여 상호 일관성을 점수로 매깁니다. 로짓 접근 권한이 필요하지 않습니다. 핵심 통찰: LLM이 잘 아는 사실의 경우 반복된 샘플이 수렴하지만, 환각된 사실의 경우 발산합니다.
-
의미론적 엔트로피: Farquhar 등(Nature, 2024)은 엔트로피를 계산하기 전에 의미적으로 동등한 답변들을 클러스터링합니다. LLM은 "파리(Paris)"와 "프랑스의 수도"를 다르게 표현할 수 있습니다. 단순 토큰 엔트로피는 이를 발산하는 것으로 취급하지만, 의미론적 엔트로피는 그렇지 않습니다. 이는 이 서베이가 맥락화한 토큰 수준 일관성보다 한 단계 더 나아간 정성적 진보입니다.
-
언어화된 신뢰도의 한계: 신뢰도 백분율을 출력하도록 요청받았을 때, 모델은 과잉 신뢰(overconfidence) 상태로 무너집니다. 실증 연구(Groot 등, ACL 2024의 TrustNLP)에 따르면 GPT-3, GPT-3.5, Vicuna 모두 언어화된 신뢰도에 대해 평균 기대 캘리브레이션 오차(ECE)가 0.377을 초과하며, 실제 정확도와 상관없이 예측값이 90–100% 범위에 집중되는 것으로 나타났습니다. 평가된 모델 중 캘리브레이션이 가장 잘 된 GPT-4조차도 언어화된 신뢰도를 사용하여 정답과 오답을 구별할 때 AUROC가 약 62.7%에 불과해 우연보다 조금 나은 수준입니다.
-
작업에 따라 다른 캘리브레이션 기법: 분류 작업의 경우, 빈 "[N/A]" 프롬프트로 추정된 클래스 사전 편향을 빼는 맥락적 캘리브레이션과 위치 편향 제거(PriDE)가 알려진 체계적 편향을 해결합니다. 생성 작업의 경우, 시퀀스 가능도 캘리브레이션(SLiC)은 순위가 매겨진 완결문들에 대해 모델을 미세 조정합니다. 가장 간단한 사후 수정법인 온도 스케일링(Temperature scaling)은 여전히 많은 환경에서 경쟁력이 있습니다.
-
통합 벤치마크의 부재: 이 서베이의 가장 뼈아픈 구조적 관찰은 작업과 도메인 전반에 걸쳐 신뢰도 추정 방법을 아우르는 단일 벤치마크가 없다는 점입니다. 이로 인해 방법들을 엄격하게 비교하는 것이 거의 불가능합니다. 이 분야는 사과와 오렌지를 비교하고 있는 격입니다.
무엇이 유효하고 무엇이 그렇지 않은가
분류 체계는 견고합니다. 화이트박스 대 블랙박스 구분은 시스템 설계에 진정으로 유용하며, 로짓 기반 방법에 대한 처리는 그 한계에 대해 솔직합니다. 저자들은 토큰 확률이 사실적 신뢰도와 어휘적 불확실성을 혼동한다는 점을 직접 지적합니다. 실무자들은 이러한 혼동을 과소평가하곤 합니다.
이 서베이에서 아쉬운 점은 주로 설명 위주라는 것입니다. 방법들을 직접 비교하는 실험적 벤치마크가 거의 없으며, 저자들도 이를 명백한 한계로 인정합니다. 설계 공간 지도는 명확히 얻을 수 있지만, 새로운 작업에 어떤 방법을 사용해야 할지에 대한 지침은 얻기 어렵습니다.
언어화된 신뢰도 결과(GPT-4의 AUROC 62.7%)는 LLM을 프로덕션에 배포하는 사람이라면 누구나 알고 있어야 할 정석적인 지식이 되어야 합니다. 하지만 현실은 그렇지 않습니다. 사람들은 여전히 "110점 척도에서 얼마나 확신합니까?"라고 묻는 프롬프트를 배포하고 그 답변을 의미 있는 것으로 취급합니다. 하지만 그것은 의미가 없습니다.
이 서베이는 RLHF 캘리브레이션 문제에 대해서도 미흡합니다. 인간 피드백을 통한 사후 학습이 모델의 캘리브레이션을 개선하는지 아니면 악화시키는지에 대해서는 양쪽 모두의 증거가 있으며, 서베이는 이를 대부분 회피합니다.
이것이 금융 AI에 중요한 이유
ReDAct는 저렴한 모델로부터 캘리브레이션된 불확실성 신호를 얻는 것에 안전성을 걸고 있습니다. 이 서베이는 그것이 실제로 얼마나 어려운지를 명확히 보여줍니다. 로짓 기반 신호는 화이트박스 환경에서 사용할 수 있지만 어휘적 불확실성과 사실적 불확실성을 혼동합니다. 일관성 기반 방법은 블랙박스 환경에서 작동하지만 결정당 여러 개의 샘플이 필요하므로, 대량의 트랜잭션 항목을 처리하는 고처리량 Beancount 기록 에이전트에게는 비용이 많이 듭니다.
Bean Labs에 가장 유용한 발견은 의미론적 엔트로피가 일관성을 측정하기 전에 의미적으로 동등한 답변들을 클러스터링한다는 점입니다. 이는 모델이 동일한 차변/대변 관계를 여러 통사적으로 뚜렷한 형태로 표현할 수 있는 원장 항목(ledger entries)에서 정확히 중요한 부분입니다. Beancount 에이전트는 계정 이름이나 금액을 환각하고 있는지 감지하기 위해 원시 토큰 수준의 분산이 아닌, 샘플링된 원장 항목 완결문들에 대해 의미론적 클러스터링을 사용 해야 합니다.
언어화된 신뢰도의 캘리브레이션 실패는 사용자에게 "AI가 얼마나 확신하나요?"라고 표시하는 모든 UI에 대한 직접적인 경고입니다. 모델이 생성하는 숫자를 믿지 마십시오. 대신 외부 캘리브레이터나 일관성 기반 방법을 사용하거나, 아예 표시하지 마십시오.
다음에 읽을거리
- Farquhar 등, "의미론적 엔트로피를 이용한 대규모 언어 모델의 환각 탐지", Nature, 2024 — 이 서베이 프레임워크에서 나온 가장 엄격한 방법으로, 서베이의 요약보다는 전문을 읽어볼 가치가 있습니다.
- Manakul 등, "SelfCheckGPT: 생성형 대규모 언어 모델을 위한 제로 리소스 블랙박스 환각 탐지", EMNLP 2023 (arXiv:2303.08896) — 정석적인 일관성 기반 방법으로, 블랙박스 신뢰도 신호를 배포하기 전에 반드시 이해해야 합니다.
- Groot 등, "과잉 신뢰가 핵심: 대규모 언어 및 시각-언어 모델에서의 언어화된 불확실성 평가", TrustNLP at ACL 2024 (arXiv:2405.02917) — 모델과 작업 전반에 걸쳐 언어화된 신뢰도가 어떻게 무너지는지에 대한 가장 철저한 실증적 감사입니다.
