LLM 이상 탐지 서베이 (NAACL 2025): 강력한 분류 체계, 부족한 정형 데이터 커버리지
Xu 및 Ding의 LLM 기반 이상 및 OOD 탐지에 관한 NAACL 2025 서베이에 대한 비판적 검토입니다. 탐지 대 생성 분류 체계는 유효하지만, 정형 데이터에 대한 설명이 거의 전무하여 금융 AI 실무자는 비전 모델의 통찰력을 직접 합성해야 합니다.
Xu 및 Ding의 LLM 기반 이상 및 OOD 탐지에 관한 NAACL 2025 서베이에 대한 비판적 검토입니다. 탐지 대 생성 분류 체계는 유효하지만, 정형 데이터에 대한 설명이 거의 전무하여 금융 AI 실무자는 비전 모델의 통찰력을 직접 합성해야 합니다.
Fin-RATE는 2,472개의 SEC 공시에서 추출한 7,500개의 전문가 큐레이션 QA 쌍을 통해 17개의 LLM을 벤치마킹하여, 시계열 추적 시 정확도가 18.60% 급락하고 금융 특화 모델인 Fin-R1의 경우 기업 간 작업에서 54포인트 하락하는 등 한계를 드러냈습니다. 또한 검색(retrieval) 파이프라인이 백본 모델보다 더 큰 병목 현상인 것으로 나타났습니다.
Liu 등이 발표한 TACL 2024 논문은 LLM이 긴 컨텍스트의 중간에 배치된 정보에 대해 성능이 최대 20포인트 하락하는 U자형 성능 저하 현상을 보여줍니다. 이는 Claude-1.3-100K를 포함한 모든 테스트 모델에서 나타나며, 금융 및 회계 애플리케이션의 RAG 파이프라인에서 검색된 구절을 배치하는 방식에 구체적인 시사점을 제공합니다.
AD-LLM은 5개의 NLP 데이터셋을 대상으로 제로샷 탐지기, 데이터 증강 도구, 모델 선택 조언자라는 세 가지 이상 탐지 역할에서 GPT-4o와 Llama 3.1 8B를 벤치마킹합니다. GPT-4o는 제로샷에서 0.93–0.99의 AUROC를 기록했지만, LLM 기반 모델 선택은 여전히 신뢰하기 어렵다는 점을 보여주며, 이는 금융 감사 AI에 직접적인 시사점을 제공합니다.
τ-bench는 Claude 3.5 Sonnet과 같은 최상위 LLM이 소매 고객 서비스 작업에서 pass@1 0.692에서 pass@4 0.462로 떨어진다는 점을 보여줍니다. 이는 Beancount 원장에서 작동하는 모든 쓰기 가능(write-back) 에이전트에게 직접적인 시사점을 주는 일관성의 절벽(consistency cliff)을 나타냅니다.
ConvFinQA (EMNLP 2022)는 FinQA를 S&P 500 수익 보고서에 대한 다회차 대화로 확장하여, 가장 우수한 미세 조정 모델이 68.9%의 실행 정확도를 달성한 반면 인간 전문가는 89.4%를 기록했음을 발견했습니다. 특히 모델이 서로 다른 금융 주제 간에 수치적 맥락을 유지해야 하는 하이브리드 다측면 대화에서는 정확도가 52.4%까지 떨어졌습니다.
FinanceBench는 실제 SEC 공시를 바탕으로 한 10,231개의 질문을 통해 16가지 AI 구성을 평가합니다. 공유 벡터 저장소 RAG는 정답률이 19%에 불과하며, 오라클 패시지를 사용한 GPT-4-Turbo조차 85% 정확도에 그쳤습니다. 이는 기업용 금융 AI의 핵심 제약 사항이 검색이 아닌 수치 추론임을 보여줍니다.
자기 일관성은 탐욕적 생각의 사슬(Greedy Chain-of-Thought) 디코딩을 N개의 샘플링된 추론 경로에 대한 다수결로 대체하여, 별도의 미세 조정 없이 GSM8K 데이터셋에서 GPT-3의 정확도를 17.9%포인트 향상시키며, 단일 LLM 디코딩을 신뢰할 수 없는 다단계 금융 계산에 직접 적용할 수 있습니다.