본문으로 건너뛰기
Finance

모든 것에 대하여 Finance

35개의 기사
Financial research, analysis, and domain knowledge for accounting AI

FinRAGBench-V: 금융 도메인의 시각적 인용을 포함한 멀티모달 RAG

FinRAGBench-V(EMNLP 2025)는 금융 분야에서 시각적 인용을 포함한 멀티모달 RAG를 위한 최초의 대규모 벤치마크로, 112,000페이지 이상의 문서와 1,394개의 사람이 주석을 단 질의응답 쌍을 포함합니다. 상위 모델들은 블록 수준 인용 재현율이 20~61%에 불과하며, 멀티모달 검색은 텍스트 전용 검색보다 거의 50% 포인트 더 높은 성능을 보입니다.

LLM의 신뢰도와 캘리브레이션: 연구 결과가 실제로 보여주는 것에 대한 서베이

화이트박스 로짓 접근법, 일관성 기반 SelfCheckGPT, 의미론적 엔트로피 등 LLM 신뢰도 추정 및 캘리브레이션 방법에 대한 체계적인 서베이에 따르면, GPT-4의 언어화된 신뢰도 점수는 AUROC 약 62.7%에 불과하여 우연보다 약간 높은 수준인 것으로 나타났습니다. 이는 금융 및 회계 분야에서 불확실성을 인지하는 에이전트를 배포할 때 직접적인 시사점을 제공합니다.

FinTrace: 금융 작업을 위한 LLM 도구 호출의 궤적 수준 평가

FinTrace는 9가지 지표를 통해 800개의 전문가 주석이 달린 금융 작업 궤적에서 13개의 LLM을 벤치마킹했습니다. 그 결과, 프런티어 모델들은 강력한 도구 선택 능력(F1 ~0.9)을 달성했지만, 에이전트가 도구의 반환 값을 추론하는 단계인 '정보 활용' 점수에서는 5점 만점에 3.23점에 그쳤습니다.

OmniEval: 금융 도메인을 위한 전방위적 RAG 평가 벤치마크

OmniEval(EMNLP 2025)은 11,400개의 자동 생성된 테스트 케이스를 사용하여 5가지 작업 유형 × 16가지 금융 주제에 걸쳐 RAG 시스템을 벤치마킹합니다. 최고의 시스템조차 수치 정확도가 36%에 불과하며, 이는 구조화된 금융 원장에 기록하기 전에 RAG 파이프라인에 검증 계층이 필요하다는 구체적인 증거입니다.

FinDER: 실제 분석가 쿼리를 통해 드러난 금융 RAG의 74% 재현율 격차

FinDER는 S&P 500 10-K 공시 자료를 대상으로 5,703개의 실제 헤지펀드 분석가 쿼리를 사용하여 RAG를 벤치마킹합니다. E5-Mistral은 단 25.95%의 컨텍스트 재현율을 기록했으며, 약어가 많은 쿼리는 정밀도를 8.2포인트 떨어뜨렸습니다. 이는 더 나은 임베딩보다 쿼리 정규화가 금융 AI 파이프라인의 최우선 과제임을 시사합니다.

Lost in the Middle: LLM의 위치 편향과 금융 AI에 미치는 영향

Liu 등이 발표한 TACL 2024 논문은 LLM이 긴 컨텍스트의 중간에 배치된 정보에 대해 성능이 최대 20포인트 하락하는 U자형 성능 저하 현상을 보여줍니다. 이는 Claude-1.3-100K를 포함한 모든 테스트 모델에서 나타나며, 금융 및 회계 애플리케이션의 RAG 파이프라인에서 검색된 구절을 배치하는 방식에 구체적인 시사점을 제공합니다.

AnoLLM: 금융 데이터의 정형 변칙 탐지를 위한 LLM 미세 조정

AnoLLM(ICLR 2025)은 정형 변칙 탐지를 LLM 밀도 추정으로 재구성합니다. 즉, 정상 행에 대해 미세 조정을 수행하고 음의 로그 가능도로 점수를 산출합니다. 이 방식은 혼합형 사기 데이터셋에서 고전적인 방법들을 능가하지만, 순수 수치형 데이터에서는 이점이 없으며 Beancount 장부 항목의 변칙을 탐지하는 데 실질적인 시사점을 제공합니다.

DocFinQA: 전체 SEC 공시 자료를 활용한 롱 컨텍스트 금융 추론

DocFinQA는 FinQA의 선별된 700단어 구절을 123,000단어 분량의 전체 SEC 공시 자료로 대체하여, 컨텍스트를 175배 확장했을 때 긴 문서에 대한 GPT-4의 정확도가 거의 절반으로 떨어짐을 보여줍니다. 검색 파이프라인은 HR@3 기준 45%의 확률로 올바른 청크를 찾지 못하며, 롱 컨텍스트 모델 또한 이를 대체하지 못합니다.

TheAgentCompany: 실제 기업 업무에서의 LLM 에이전트 벤치마킹

TheAgentCompany는 GitLab, OwnCloud, RocketChat이 실행되는 가상 인트라넷 환경에서 175개의 실제 업무 작업을 테스트합니다. 최고 성능 모델(Gemini-2.5-Pro)조차 작업당 4달러의 비용으로 30%의 성공률만 기록하며, 자율 에이전트가 회계 및 재무 워크플로우에 실질적으로 도입되기에는 아직 갈 길이 멀다는 점을 시사합니다.

InvestorBench: 금융 거래 결정에서의 LLM 에이전트 벤치마킹

InvestorBench (ACL 2025)는 QA 정확도가 아닌 누적 수익률과 샤프 지수를 사용하여 주식, 암호화폐, ETF 거래 백테스트를 통해 13개의 LLM 백본을 테스트합니다. Qwen2.5-72B는 주식 리더보드에서 46.15%의 누적 수익률(CR)로 1위를 차지했습니다. 금융 전문 미세 조정 모델은 주식에서 오히려 역효과를 냈으며, 모델 크기가 도메인 미세 조정보다 성능을 더 확실하게 예측하는 것으로 나타났습니다.