본문으로 건너뛰기

생각의 사슬 프롬프팅: 금융 AI를 위한 정밀도-재현율 트레이드오프

· 약 5분
Mike Thrift
Mike Thrift
Marketing Manager

Wei 외 연구진의 2022년 생각의 사슬(Chain-of-Thought, CoT) 논문(arXiv:2201.11903)을 특정 질문을 염두에 두고 다시 읽고 있습니다. 이전 실험에서 CoT 프롬프팅이 금융 이상 탐지(financial anomaly detection)의 정밀도(precision)는 향상시켰으나 재현율(recall)은 떨어뜨린다는 결과가 나왔습니다. 이 논문은 그 이유를 설명하거나, 최소한 가설을 세울 수 있는 기계적 직관을 제공할 것입니다.

논문 소개

2026-04-20-chain-of-thought-prompting-reasoning-tradeoffs

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma 및 Google Brain 동료들의 "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models"는 CoT를 널리 알린 기념비적인 논문입니다. 아이디어는 단순합니다. 모델에게 정답으로 바로 도약하도록 요구하는 대신, 정답 앞에 서술된 추론 과정(reasoning trace)이 포함된 몇 가지 예시를 보여주는 것입니다. 그러면 모델은 답변을 내놓기 전에 스스로 추론 과정을 생성하게 됩니다.

논문은 산술(GSM8K, SVAMP, AQuA), 상식(CommonsenseQA, StrategyQA), 기호 추론(문자 연결, 동전 던지기) 작업에 대해 PaLM 540B, GPT-3 175B, LaMDA 137B 등 세 가지 거대 언어 모델을 테스트하고 표준 퓨샷(few-shot) 프롬프팅과 비교합니다.

핵심 아이디어

  • GSM8K (수학 문장제): PaLM 540B의 표준 프롬프팅은 17.9%를 기록했으나, CoT는 56.9%를 기록하여 39포인트라는 놀라운 상승을 보여주었습니다. 이는 어려운 벤치마크에서의 압도적인 성과로, 이 논문이 명성을 얻게 된 핵심 결과입니다.
  • 문자 연결(Letter concatenation): 표준 7.6%, CoT 99.4%. 순수한 기호 조작의 경우, 대규모 모델에서 CoT는 사실상 문제를 완벽히 해결합니다.
  • 상식 추론(CommonsenseQA): 표준 78.1%, CoT 79.9%. 이득이 미미합니다. 다단계 추론이 필요하지 않은 작업은 큰 혜택을 보지 못합니다.
  • 스케일 임계값(Scale cliff): CoT는 약 1,000억(100B) 개 이상의 파라미터에서만 안정적으로 도움이 됩니다. 100억(10B) 개 미만에서는 추론 과정을 추가하는 것이 오히려 성능을 저하시킵니다. 모델이 "유창하지만 비논리적인 생각의 사슬"을 생성하여 스스로를 오도하기 때문입니다.
  • 쉬운 작업에서의 무용성: MAWPS SingleOp(단일 단계 산술)에서 PaLM 540B는 표준 및 CoT 프롬프팅 모두 94.1%를 기록했습니다. 다단계 추론이 실제 필요하지 않은 작업에서 추론 오버헤드는 가치를 더하지 못합니다.
  • 정확성 보장 없음: 저자들은 LLM이 정답이 아닌 오답으로 이어지는, 그럴듯해 보이는 추론 과정을 생성할 수 있음을 분명히 명시합니다. 추론 과정과 정답은 함께 생성되며, 어느 것도 독립적으로 검증되지 않습니다.

유효한 부분과 그렇지 않은 부분

실증적 결과는 유효합니다. GSM8K의 성과는 후속 연구에서 재현되었으며, 스케일 임계값은 다른 연구 결과와 일치하고, 기호 추론 수치는 인컨텍스트 학습(in-context learning) 메커니즘에서 기대할 수 있는 양상과 일치합니다. 이 논문은 진정한 과학적 토대를 마련했습니다.

반면 미흡하게 탐구된 부분은 정밀도/재현율의 비대칭성입니다. Wei 외 연구진은 종합적인 정확도 수치만 제시하며 오탐(false positive)과 미탐(false negative) 비율을 구분하지 않았습니다. 하지만 CoT가 답변 분포를 어떻게 변화시키는지 메커니즘을 고려하면 시사하는 바가 큽니다. CoT는 모델이 특정 추론 경로를 생성하고 그에 전념하도록 유도합니다. 이러한 생성 공간의 협소화는 정밀도(precision)를 높이는 대신 포괄성(recall)을 희생시킬 가능성이 큽니다. 모델은 전반적으로 더 적은 답변을 생성하고 생성된 답변은 더 잘 정당화되지만, 깔끔한 단계별 서술에 부합하지 않는 정답은 놓칠 수 있습니다. "이상 징후(anomaly)" 클래스가 정의상 희귀하고 이례적인 금융 데이터의 이상 탐지에서, 이는 정확히 예상되는 실패 모드입니다.

또한 기계적인 인과관계에 대한 질문을 남겨두었습니다. 저자들은 모델이 강력한 의미에서 "실제로 추론하고 있다"고 성급히 주장하지 않습니다. CoT가 진정한 다단계 추론을 이끌어내는지, 아니면 그러한 추론을 흉내 내는 정교한 패턴 매칭 지름길을 이끌어내는지는 여전히 미해결 과제입니다. 현대적인 추론 모델(o3-mini, o4-mini)을 테스트한 2025년 와튼 보고서에 따르면 명시적인 CoT 지침은 2~3%의 미미한 이득만을 제공했으며, 때로는 모델이 평소라면 맞혔을 질문에서 오류를 유발하여 "완벽한 정확도"를 감소시키기도 했습니다. 모델이 암시적 추론에 능숙해짐에 따라 스케일 임계값은 변했을 수 있지만, CoT가 정상적인 답변을 탈선시킬 수 있는 변동성 문제는 여전히 존재합니다.

금융 AI에서 이것이 중요한 이유

Bean Labs의 의제와 관련된 세 가지 연결 고리는 다음과 같습니다.

첫째, 쓰기 복구 안전 문제(write-back safety problem). 원장(ledger) 작업을 수행하기 전에 추론 과정을 설명하는 CoT 프롬프팅 에이전트는 감사 추적(audit trail)을 제공하는 듯 보이지만, 그 추론 과정이 정확성을 보장하지는 않습니다. 에이전트는 잘못된 작업에 대해 그럴듯한 설명을 내놓을 수 있습니다. 이는 사용자에게 추론 과정을 보여주는 것이 진정한 감사 가능성보다는 근거 없는 신뢰를 심어줄 위험이 있음을 의미합니다.

둘째, 이상 탐지 비대칭성. CoT가 희귀 이벤트 탐지 작업에서 정밀도를 높이고 재현율을 낮춘다면, Beancount 활용 사례(잘못 분류된 거래 식별, 중복 항목 표시, 정책 위반 포착)에서 CoT를 무분별하게 사용하는 것은 실제 문제를 놓치는 대신 오경보를 줄이는 결과를 초래할 수 있습니다. 이는 잠재적으로 잘못된 트레이드오프입니다. 의심스러운 것을 왜 표시하지 않았는지 자신 있게 설명하는 금융 에이전트는 과하게 표시하는 에이전트보다 훨씬 위험합니다.

셋째, 규모 의존성. 프로덕션 금융 에이전트가 비용이나 지연 시간 문제로 소규모 모델에서 실행된다면 CoT의 이득은 사라지거나 역전될 수 있습니다. CoT 기반 금융 에이전트에 대한 평가는 반드시 프로덕션에서 사용되는 것과 동일한 모델 규모에서 이루어져야 합니다.

더 읽어볼 거리

  • "Self-Consistency Improves Chain of Thought Reasoning in Language Models" (Wang et al., 2022, arXiv:2203.11171) — 여러 CoT 경로를 샘플링하고 다수결을 취하여 Wei 외 연구진이 지적한 변동성 문제를 직접적으로 해결합니다.
  • "Large Language Models are Zero-Shot Reasoners" (Kojima et al., 2022, arXiv:2205.11916) — 예시 없이 "단계별로 생각해보자"는 문구만으로도 추론을 유도할 수 있음을 보여주며, CoT에 실제로 필요한 요소의 경계를 테스트합니다.
  • "Is Chain-of-Thought Reasoning of LLMs a 'Reasoning' or 'Searching' Process?" (arXiv:2508.01191) — 원본 논문이 남겨둔 기계적 질문을 정면으로 다룹니다.