본문으로 건너뛰기
Financial Reporting

모든 것에 대하여 Financial Reporting

12개의 기사
Generating and auditing financial reports with language models

FinRAGBench-V: 금융 도메인의 시각적 인용을 포함한 멀티모달 RAG

FinRAGBench-V(EMNLP 2025)는 금융 분야에서 시각적 인용을 포함한 멀티모달 RAG를 위한 최초의 대규모 벤치마크로, 112,000페이지 이상의 문서와 1,394개의 사람이 주석을 단 질의응답 쌍을 포함합니다. 상위 모델들은 블록 수준 인용 재현율이 20~61%에 불과하며, 멀티모달 검색은 텍스트 전용 검색보다 거의 50% 포인트 더 높은 성능을 보입니다.

Fin-RATE: LLM이 기간 간 및 기업 간 재무 분석에서 실패하는 방식

Fin-RATE는 2,472개의 SEC 공시에서 추출한 7,500개의 전문가 큐레이션 QA 쌍을 통해 17개의 LLM을 벤치마킹하여, 시계열 추적 시 정확도가 18.60% 급락하고 금융 특화 모델인 Fin-R1의 경우 기업 간 작업에서 54포인트 하락하는 등 한계를 드러냈습니다. 또한 검색(retrieval) 파이프라인이 백본 모델보다 더 큰 병목 현상인 것으로 나타났습니다.

FinDER: 실제 분석가 쿼리를 통해 드러난 금융 RAG의 74% 재현율 격차

FinDER는 S&P 500 10-K 공시 자료를 대상으로 5,703개의 실제 헤지펀드 분석가 쿼리를 사용하여 RAG를 벤치마킹합니다. E5-Mistral은 단 25.95%의 컨텍스트 재현율을 기록했으며, 약어가 많은 쿼리는 정밀도를 8.2포인트 떨어뜨렸습니다. 이는 더 나은 임베딩보다 쿼리 정규화가 금융 AI 파이프라인의 최우선 과제임을 시사합니다.

DocFinQA: 전체 SEC 공시 자료를 활용한 롱 컨텍스트 금융 추론

DocFinQA는 FinQA의 선별된 700단어 구절을 123,000단어 분량의 전체 SEC 공시 자료로 대체하여, 컨텍스트를 175배 확장했을 때 긴 문서에 대한 GPT-4의 정확도가 거의 절반으로 떨어짐을 보여줍니다. 검색 파이프라인은 HR@3 기준 45%의 확률로 올바른 청크를 찾지 못하며, 롱 컨텍스트 모델 또한 이를 대체하지 못합니다.

FinAuditing: 실제 SEC XBRL 감사 작업에서 LLM의 점수가 14% 미만을 기록함

FinAuditing은 1,102개의 실제 SEC XBRL 공시 사례를 대상으로 13개의 LLM을 제로샷(zero-shot)으로 테스트했습니다. 최고 점수는 재무 수학 검증에서 13.86%, 개념 검색에서 12.42%로 나타났으며, 이는 외부 도구 없이 AI 회계 도구가 자동화할 수 있는 신뢰 범위의 한계를 직접적으로 보여줍니다.

MultiHiertt: 다중 계층 재무 제표에 대한 수치 추론 벤치마킹

MultiHiertt (ACL 2022)는 실제 재무 보고서에서 추출한 10,440개의 QA 쌍을 소개하며, 각 보고서는 평균 3.89개의 계층적 테이블을 포함합니다. 최신 모델의 F1 점수는 38%인 반면 인간은 87%를 기록했으며, 교차 테이블 질문에서는 15점의 점수 하락이 발생했습니다. 이는 금융 AI가 해결해야 할 정보 검색 격차를 수치화한 것입니다.

ConvFinQA: 다회차 금융 질의응답과 모델 및 전문가 사이의 21포인트 격차

ConvFinQA (EMNLP 2022)는 FinQA를 S&P 500 수익 보고서에 대한 다회차 대화로 확장하여, 가장 우수한 미세 조정 모델이 68.9%의 실행 정확도를 달성한 반면 인간 전문가는 89.4%를 기록했음을 발견했습니다. 특히 모델이 서로 다른 금융 주제 간에 수치적 맥락을 유지해야 하는 하이브리드 다측면 대화에서는 정확도가 52.4%까지 떨어졌습니다.

TAT-QA: 재무 연례 보고서 추론을 위한 하이브리드 표-텍스트 질의응답 벤치마크

TAT-QA는 하이브리드 표-텍스트 금융 보고서 맥락에 대한 16,552개의 질문으로 구성된 벤치마크로, 금융 AI의 핵심 병목 현상이 산술 능력이 아닌 근거 도출(evidence grounding)임을 보여주었습니다. 2024년까지 미세 조정된 7B LLM은 F1 점수 83%에 도달하며 인간의 한계치인 91%와의 격차를 대부분 좁혔습니다.

FinQA: 재무 보고서의 AI 수치 추론 능력을 측정하는 벤치마크

FinQA(EMNLP 2021)는 다단계 산술 프로그램이 필요한 S&P 500 실적 보고서에서 8,281개의 질의응답 쌍을 구축했습니다. 발표 당시 신경망 모델은 61%를 기록한 반면 인간 전문가는 91%를 기록했습니다. 3단계 이상의 프로그램에서는 정확도가 22%로 급락합니다. 도메인 상수, 교차 모달리티 근거 제시, 체인 길이 등 실패 모드는 오늘날 Beancount 에이전트가 직면한 과제와 직접적으로 연결됩니다.