본문으로 건너뛰기
Financial Statements

모든 것에 대하여 Financial Statements

3개의 기사
Balance sheet, income statement, and cash-flow generation research

MultiHiertt: 다중 계층 재무 제표에 대한 수치 추론 벤치마킹

MultiHiertt (ACL 2022)는 실제 재무 보고서에서 추출한 10,440개의 QA 쌍을 소개하며, 각 보고서는 평균 3.89개의 계층적 테이블을 포함합니다. 최신 모델의 F1 점수는 38%인 반면 인간은 87%를 기록했으며, 교차 테이블 질문에서는 15점의 점수 하락이 발생했습니다. 이는 금융 AI가 해결해야 할 정보 검색 격차를 수치화한 것입니다.

FinanceBench: 왜 벡터 저장소 RAG가 실제 금융 문서에서 실패하는가

FinanceBench는 실제 SEC 공시를 바탕으로 한 10,231개의 질문을 통해 16가지 AI 구성을 평가합니다. 공유 벡터 저장소 RAG는 정답률이 19%에 불과하며, 오라클 패시지를 사용한 GPT-4-Turbo조차 85% 정확도에 그쳤습니다. 이는 기업용 금융 AI의 핵심 제약 사항이 검색이 아닌 수치 추론임을 보여줍니다.

FinMaster 벤치마크: LLM이 금융 문해력에서 96%를 기록하면서도 재무제표 생성에서는 3%에 그치는 이유

FinMaster(arXiv:2505.13533)는 183개의 금융 작업을 통해 o3-mini, Claude 3.7 Sonnet, DeepSeek-V3를 벤치마킹했습니다. 그 결과, 모델들이 금융 문해력에서는 96%의 점수를 기록했으나 재무제표 생성에서는 3%로 급락했으며, 다단계 컨설팅 작업에서는 오류 전파로 인해 정확도가 21점 하락했음을 밝혔습니다.