본문으로 건너뛰기
Data Science

모든 것에 대하여 Data Science

40개의 기사
Data science methods applied to financial datasets and accounting workflows

FinRAGBench-V: 금융 도메인의 시각적 인용을 포함한 멀티모달 RAG

FinRAGBench-V(EMNLP 2025)는 금융 분야에서 시각적 인용을 포함한 멀티모달 RAG를 위한 최초의 대규모 벤치마크로, 112,000페이지 이상의 문서와 1,394개의 사람이 주석을 단 질의응답 쌍을 포함합니다. 상위 모델들은 블록 수준 인용 재현율이 20~61%에 불과하며, 멀티모달 검색은 텍스트 전용 검색보다 거의 50% 포인트 더 높은 성능을 보입니다.

WildToolBench: 실제 환경의 도구 사용에서 LLM의 세션 정확도가 15%를 넘지 못하는 이유

WildToolBench(ICLR 2026)는 실제 사용자 행동에서 추출된 1,024개의 작업에 대해 57개의 LLM을 평가합니다. 그 결과 세션 정확도가 15%를 넘는 모델은 없었으며, 구성적 오케스트레이션, 숨겨진 의도, 지시어 전환이 세 가지 주요 실패 유형으로 나타났습니다.

LLM의 신뢰도와 캘리브레이션: 연구 결과가 실제로 보여주는 것에 대한 서베이

화이트박스 로짓 접근법, 일관성 기반 SelfCheckGPT, 의미론적 엔트로피 등 LLM 신뢰도 추정 및 캘리브레이션 방법에 대한 체계적인 서베이에 따르면, GPT-4의 언어화된 신뢰도 점수는 AUROC 약 62.7%에 불과하여 우연보다 약간 높은 수준인 것으로 나타났습니다. 이는 금융 및 회계 분야에서 불확실성을 인지하는 에이전트를 배포할 때 직접적인 시사점을 제공합니다.

FinToolBench: 실제 금융 도구 사용에 대한 LLM 에이전트 평가

FinToolBench는 760개의 실시간 금융 API 도구와 295개의 실행 가능한 쿼리를 결합하여 실제 금융 작업에 대한 LLM 에이전트를 벤치마킹합니다. GPT-4o의 보수적인 22.7% 호출률이 Qwen3-8B의 공격적인 87.1% TIR보다 높은 답변 품질(CSS 0.670)을 제공하는 반면, 의도 불일치(intent mismatch)는 모든 테스트 모델에서 50%를 초과하는 것으로 나타났습니다.

OmniEval: 금융 도메인을 위한 전방위적 RAG 평가 벤치마크

OmniEval(EMNLP 2025)은 11,400개의 자동 생성된 테스트 케이스를 사용하여 5가지 작업 유형 × 16가지 금융 주제에 걸쳐 RAG 시스템을 벤치마킹합니다. 최고의 시스템조차 수치 정확도가 36%에 불과하며, 이는 구조화된 금융 원장에 기록하기 전에 RAG 파이프라인에 검증 계층이 필요하다는 구체적인 증거입니다.

LLM 이상 탐지 서베이 (NAACL 2025): 강력한 분류 체계, 부족한 정형 데이터 커버리지

Xu 및 Ding의 LLM 기반 이상 및 OOD 탐지에 관한 NAACL 2025 서베이에 대한 비판적 검토입니다. 탐지 대 생성 분류 체계는 유효하지만, 정형 데이터에 대한 설명이 거의 전무하여 금융 AI 실무자는 비전 모델의 통찰력을 직접 합성해야 합니다.

중간에서 찾기: 위치적 어텐션 편향 보정을 통한 롱 컨텍스트 RAG 개선

추가 학습이 필요 없는 추론 시점 보정 기술은 LLM 어텐션 가중치에서 위치적 편향을 제거하여, 검색된 문서가 컨텍스트 중간에 위치할 때 RAG 정확도를 최대 15% 포인트까지 회복시킵니다. 금융 특화 에이전트 파이프라인에 미치는 영향을 살펴봅니다.

Fin-RATE: LLM이 기간 간 및 기업 간 재무 분석에서 실패하는 방식

Fin-RATE는 2,472개의 SEC 공시에서 추출한 7,500개의 전문가 큐레이션 QA 쌍을 통해 17개의 LLM을 벤치마킹하여, 시계열 추적 시 정확도가 18.60% 급락하고 금융 특화 모델인 Fin-R1의 경우 기업 간 작업에서 54포인트 하락하는 등 한계를 드러냈습니다. 또한 검색(retrieval) 파이프라인이 백본 모델보다 더 큰 병목 현상인 것으로 나타났습니다.

FinDER: 실제 분석가 쿼리를 통해 드러난 금융 RAG의 74% 재현율 격차

FinDER는 S&P 500 10-K 공시 자료를 대상으로 5,703개의 실제 헤지펀드 분석가 쿼리를 사용하여 RAG를 벤치마킹합니다. E5-Mistral은 단 25.95%의 컨텍스트 재현율을 기록했으며, 약어가 많은 쿼리는 정밀도를 8.2포인트 떨어뜨렸습니다. 이는 더 나은 임베딩보다 쿼리 정규화가 금융 AI 파이프라인의 최우선 과제임을 시사합니다.

Lost in the Middle: LLM의 위치 편향과 금융 AI에 미치는 영향

Liu 등이 발표한 TACL 2024 논문은 LLM이 긴 컨텍스트의 중간에 배치된 정보에 대해 성능이 최대 20포인트 하락하는 U자형 성능 저하 현상을 보여줍니다. 이는 Claude-1.3-100K를 포함한 모든 테스트 모델에서 나타나며, 금융 및 회계 애플리케이션의 RAG 파이프라인에서 검색된 구절을 배치하는 방식에 구체적인 시사점을 제공합니다.