PHANTOM (NeurIPS 2025): 금융 문서에서의 LLM 환각 탐지 측정
PHANTOM(NeurIPS 2025)은 LLM이 Beancount 원장을 다루도록 신뢰하기 전 제가 가장 답을 얻고 싶었던 질문을 던집니다. 과연 모델이 금융 문서에 대해 스스로 지어낸 내용을 진짜로 구별할 수 있을까요? 결과는 그리 안심할 수준이 아니며, 방법론적 선택들을 면밀히 살펴볼 가치가 있습니다.
논문 요약
%3A%20%EA%B8%88%EC%9C%B5%20%EB%AC%B8%EC%84%9C%EC%97%90%EC%84%9C%EC%9D%98%20LLM%20%ED%99%98%EA%B0%81%20%ED%83%90%EC%A7%80%20%EC%B8%A1%EC%A0%95)
IBM Research 소속 연구원들이 주도한 Lanlan Ji, Dominic Seyler, Gunkirat Kaur, Manjunath Hegde, Koustuv Dasgupta, Bing Xiang 등은 일반적인 환각 벤치마크가 놓치고 있는 공백을 메우기 위해 PHANTOM을 구축했습니다. 표준 환각 벤치마크는 짧고 정제된 문맥과 잘 구성된 쿼리를 테스트합니다. 하지만 금융 문서는 정반대입니다. 단일 10-K 공시 서류는 보통 100,000 토큰을 초과하며, 숫자는 센트 단위까지 정밀하고, 언어는 EBITDA, 이연 수익(deferred revenue), 영업권 손상(goodwill impairment)과 같이 명확하지 않은 의미를 지닌 도메인 특화 용어들로 가득 차 있습니다. 핵심 기여는 실제 SEC 공시(10-K 연례 보고서, 497K 뮤추얼 펀드 공시, DEF 14A 위임장 설명서)를 바탕으로 구축된 쿼리-답변-문서 트리플렛 데이터셋입니다. 각 답변은 정답이거나 의도적으로 환각된 내용이며, 인간 검수자에 의해 검증되었습니다. 이후 이 벤치마크는 약 500 토큰에서 30,000 토큰까지 문맥 길이를 확장하고, 관련 정보가 문맥의 시작, 중간, 끝 중 어디에 위치하느냐에 따라 체계적으로 변화를 주어 테스트합니다.
핵심 아이디어
- 과제는 환각 탐지이며 환각 생성이 아닙니다. 즉, 문서 조각과 답변이 주어졌을 때 답변이 근거가 있는지 아니면 조작된 것인지를 분류하는 것입니다. 이는 근거 있는 답변을 생성하는 것보다 간단한 작업이지만, 모델들은 여전히 큰 어려움을 겪고 있습니다.
- 문맥 길이는 매우 중요합니다. 기초 데이터셋은 약 500 토큰의 조각을 사용합니다. 문맥이 10K, 20K, 30K 토큰으로 늘어남에 따라 모든 모델의 성능이 크게 떨어졌으며, 이는 관련 정보가 긴 문맥 중간에 묻혀 있을 때 LLM 성능이 저하된다는 "Lost in the Middle" 발견(arXiv:2307.03172)과 일치합니다.
- Llama-3.3-70B-Instruct는 기초 데이터셋에서 0.916이라는 가장 높은 F1 점수를 기록했습니다. 하지만 저자들은 이 모델이 기초 데이터셋 생성에도 사용되었다는 점을 지적했는데, 이는 수치를 부풀리는 순환 논리 문제를 야기합니다.
- Qwen3-30B-A3B-Thinking은 F1 = 0.882를 기록하며 테스트된 모든 폐쇄형 소스 모델을 능가했습니다. 사고 과정이 없는 일반 Instruct 모델이 0.848을 기록한 것을 보면, 추론 시점의 연산(생각의 사슬 추론)이 실질적인 가치를 더한다는 것을 알 수 있습니다.
- 소형 모델(Qwen-2.5-7B)은 벤치마크에서 무작위 추측보다 아주 조금 높은 점수를 기록했습니다. 긴 금융 문서에 대한 환각 탐지는 상당한 모델 용량이 필요한 것으로 보입니다.
- 오픈 소스 모델을 PHANTOM 데이터로 미세 조정(fine-tuning)하면 탐지율이 크게 향상됩니다. 논문은 이를 실무자들에게 가장 유망한 방향으로 꼽았습니다.
유효한 점과 한계점
구축 방법론은 매우 세심합니다. 기초 데이터셋에 대한 인간의 주석 작업과 문맥 길이 및 위치에 따른 체계적인 확장은 대부분의 금융 NLP 데이터셋이 갖추지 못한 구조를 PHANTOM에 부여합니다. 특히 위치 변화에 따른 테스트는 유용합니다. 이는 모델의 실패가 단순히 전체 문맥 길이 때문인지, 아니면 많은 LLM 아키텍처에서 문서화된 U자형 주의력 패턴(시작과 끝은 강하고 중간은 약함) 때문인지를 측정할 수 있게 해줍니다.
Llama-3.3-70B의 순환 논리 문제는 실제적인 문제이며 저자들이 이를 명시한 점은 높이 평가할 만합니다. 하지만 이는 벤치마크의 최고 결과를 해석하기 어렵게 만듭니다. 실무자들에게 더 유용한 수치는 오염 가능성이 없는 Qwen3와 Phi-4의 결과일 것입니다.
논문에서 아쉬운 점은 문맥 길이가 500에서 30,000 토큰으로 늘어남에 따른 실제 성능 저하 곡선입니다. 논문은 성능 저하가 발생하고 위치가 중요하다는 점을 입증했지만, 가용한 자료에서 구체적인 하락 수치를 추출하기는 어려웠습니다. 이러한 세밀한 데이터는 실제 시스템에서 검색(retrieval) 청크 크기를 결정하는 데 중요합니다. 또한 이 벤치마크는 제시된 답변에서 환각을 탐지하는지만 테스트할 뿐, 모델이 처음부터 답변을 생성할 때 환각을 일으키는지는 테스트하지 않는다는 점도 유의해야 합니다. 이들은 서로 관련되어 있지만 다른 유형의 오류이며, 탐지 점수가 높은 시스템이라도 생성 단계에서는 심각하게 실패할 수 있습니다.
마지막으로, 이 데이터셋은 세 종류의 SEC 공시 서류만 다룹니다. 이는 금융 문서 영역에서 의미 있는 비중을 차지하지만, 실적 발표 기록(earnings call transcripts), 감사 보고서, 대출 계약서의 약정 조항, 그리고 Beancount 원장을 채우는 임의의 분개 항목 설명 등은 포함되지 않았습니다. 이러한 형식으로의 일반화 여부는 여전히 숙제로 남아 있습니다.
금융 AI에 이것이 중요한 이유
환각은 Beancount를 기반으로 구축할 수 있는 모든 자율 회계 에이전트에게 있어 신뢰의 문제입니다. 원장 쓰기 시나리오는 최악의 경우입니다. 에이전트가 은행 명세서를 읽고, 거래를 분류하고, 분개 항목을 게시하는 상황을 가정해 보십시오. 만약 에이전트가 수취인, 금액 또는 계정 코드를 환각한다면, 원장은 조용히 틀린 상태가 됩니다. PHANTOM은 현실적인 문서 조건에서 모델이 이러한 부류의 오류를 잡아낼 수 있는지를 측정하려는 최초의 벤치마크입니다.
소형 모델(7B)이 환각 탐지에서 무작위 수준의 성능을 보인다는 발견은 Bean Labs에 직접적인 관련이 있습니다. 만약 우리가 기기 내(on-device) 또는 저지연 에이전트를 실행한다면, 7B 모델이 스스로의 출력을 검증하도록 신뢰할 수 없습니다. 더 큰 검증 모델, 외부 검색 체크, 또는 모델이 분개를 게시하기 전 소스 문서의 행 번호를 인용하도록 강제하는 등 환각이 구조적으로 불가능하게 만드는 제약된 출력 형식이 필요합니다. 미세 조정 결과는 고무적입니다. PHANTOM 스타일의 데이터에 대한 도메인 특화 적응은 소형 모델에서도 탐지 능력을 상당 부분 회복시키는 것으로 보이며, 이는 미세 조정된 검증기가 원장 쓰기 파이프라인에서 실질적인 구성 요소가 될 수 있음을 시사합니다.
더 읽어볼 거리
- SelfCheckGPT (Manakul et al., arXiv:2303.08896) — 참조 문서 없이 샘플링 기반으로 환각을 탐지하는 방식으로, PHANTOM의 참조 기반 접근 방식을 보완하며 개방형 원장 주석에 더 잘 일반화될 수 있습니다.
- "Lost in the Middle" (Liu et al., arXiv:2307.03172) — 긴 문맥에서 위치에 따른 주의력 저하에 관한 기초 논문입니다. PHANTOM의 위치별 결과는 본질적으로 이를 금융 도메인에 적용하여 재현한 것입니다.
- FinanceBench (Islam et al., 2023) — 검색 기능을 갖춘 GPT-4 Turbo가 150개 샘플 중 81%에서 실패했음을 보여준 SEC 공시 대상 QA 벤치마크입니다. PHANTOM의 탐지 측면 관점과 함께 생성 측면의 보완 자료로 적합합니다.
