중간에서 찾기: 위치적 어텐션 편향 보정을 통한 롱 컨텍스트 RAG 개선
추가 학습이 필요 없는 추론 시점 보정 기술은 LLM 어텐션 가중치에서 위치적 편향을 제거하여, 검색된 문서가 컨텍스트 중간에 위치할 때 RAG 정확도를 최대 15% 포인트까지 회복시킵니다. 금융 특화 에이전트 파이프라인에 미치는 영향을 살펴봅니다.
추가 학습이 필요 없는 추론 시점 보정 기술은 LLM 어텐션 가중치에서 위치적 편향을 제거하여, 검색된 문서가 컨텍스트 중간에 위치할 때 RAG 정확도를 최대 15% 포인트까지 회복시킵니다. 금융 특화 에이전트 파이프라인에 미치는 영향을 살펴봅니다.
ReDAct는 기본적으로 소형 모델을 실행하고 토큰 수준의 퍼플렉시티(perplexity)가 불확실성을 나타낼 때만 고가의 모델로 에스컬레이션합니다. 이를 통해 GPT-5.2 단독 사용 대비 정확도는 유지하거나 상회하면서도 64%의 비용을 절감하며, 이는 Beancount 거래 분류 에이전트에 직접 적용 가능한 패턴입니다.
OpenHands는 MIT 라이선스 기반의 Docker 샌드박스 에이전트 플랫폼으로, CodeAct가 SWE-Bench Lite에서 26%의 성능을 기록했습니다. 이는 현재 AI 에이전트가 안정적으로 수행할 수 있는 수준을 보여주는 냉정한 지표이며, 초기 금융 분야의 실질적인 배포가 자율적인 형태보다는 명확하게 정의된 범위 내에서 이루어져야 하는 이유를 설명합니다.
Fin-RATE는 2,472개의 SEC 공시에서 추출한 7,500개의 전문가 큐레이션 QA 쌍을 통해 17개의 LLM을 벤치마킹하여, 시계열 추적 시 정확도가 18.60% 급락하고 금융 특화 모델인 Fin-R1의 경우 기업 간 작업에서 54포인트 하락하는 등 한계를 드러냈습니다. 또한 검색(retrieval) 파이프라인이 백본 모델보다 더 큰 병목 현상인 것으로 나타났습니다.
FinDER는 S&P 500 10-K 공시 자료를 대상으로 5,703개의 실제 헤지펀드 분석가 쿼리를 사용하여 RAG를 벤치마킹합니다. E5-Mistral은 단 25.95%의 컨텍스트 재현율을 기록했으며, 약어가 많은 쿼리는 정밀도를 8.2포인트 떨어뜨렸습니다. 이는 더 나은 임베딩보다 쿼리 정규화가 금융 AI 파이프라인의 최우선 과제임을 시사합니다.
Liu 등이 발표한 TACL 2024 논문은 LLM이 긴 컨텍스트의 중간에 배치된 정보에 대해 성능이 최대 20포인트 하락하는 U자형 성능 저하 현상을 보여줍니다. 이는 Claude-1.3-100K를 포함한 모든 테스트 모델에서 나타나며, 금융 및 회계 애플리케이션의 RAG 파이프라인에서 검색된 구절을 배치하는 방식에 구체적인 시사점을 제공합니다.
AD-LLM은 5개의 NLP 데이터셋을 대상으로 제로샷 탐지기, 데이터 증강 도구, 모델 선택 조언자라는 세 가지 이상 탐지 역할에서 GPT-4o와 Llama 3.1 8B를 벤치마킹합니다. GPT-4o는 제로샷에서 0.93–0.99의 AUROC를 기록했지만, LLM 기반 모델 선택은 여전히 신뢰하기 어렵다는 점을 보여주며, 이는 금융 감사 AI에 직접적인 시사점을 제공합니다.
CausalTAD는 직렬화 전에 인과적 의존성을 고려하여 테이블 열 순서를 재정렬함으로써 LLM 기반 정형 데이터 이상 탐지 성능을 개선합니다. 혼합 유형 벤치마크에서 AnoLLM 대비 평균 AUC-ROC를 0.803에서 0.834로 높였으며, 이는 정형화된 장부 데이터의 이상 탐지에 직접적인 시사점을 제공합니다.
AnoLLM(ICLR 2025)은 정형 변칙 탐지를 LLM 밀도 추정으로 재구성합니다. 즉, 정상 행에 대해 미세 조정을 수행하고 음의 로그 가능도로 점수를 산출합니다. 이 방식은 혼합형 사기 데이터셋에서 고전적인 방법들을 능가하지만, 순수 수치형 데이터에서는 이점이 없으며 Beancount 장부 항목의 변칙을 탐지하는 데 실질적인 시사점을 제공합니다.
LLMFinLiteracy 벤치마크에 따르면 5개의 약 7B 규모 공개 가중치 모델이 완전히 정확한 Beancount 트랜잭션을 생성할 확률은 2.3%에 불과했습니다. 실패 원인은 구문이 아닌 회계적 추론에 집중되어 있으며, 이는 신뢰할 수 있는 라이트백(write-back) 에이전트를 위해 루프 내 컴파일러(compiler-in-the-loop) 피드백이 핵심적인 요소임을 시사합니다.