본문으로 건너뛰기
Financial Literacy

모든 것에 대하여 Financial Literacy

2개의 기사
Research on financial knowledge representation and LLM competency

Beancount DSL 생성에서 LLM 점수 2.3%: LLMFinLiteracy 벤치마크

LLMFinLiteracy 벤치마크에 따르면 5개의 약 7B 규모 공개 가중치 모델이 완전히 정확한 Beancount 트랜잭션을 생성할 확률은 2.3%에 불과했습니다. 실패 원인은 구문이 아닌 회계적 추론에 집중되어 있으며, 이는 신뢰할 수 있는 라이트백(write-back) 에이전트를 위해 루프 내 컴파일러(compiler-in-the-loop) 피드백이 핵심적인 요소임을 시사합니다.

FinMaster 벤치마크: LLM이 금융 문해력에서 96%를 기록하면서도 재무제표 생성에서는 3%에 그치는 이유

FinMaster(arXiv:2505.13533)는 183개의 금융 작업을 통해 o3-mini, Claude 3.7 Sonnet, DeepSeek-V3를 벤치마킹했습니다. 그 결과, 모델들이 금융 문해력에서는 96%의 점수를 기록했으나 재무제표 생성에서는 3%로 급락했으며, 다단계 컨설팅 작업에서는 오류 전파로 인해 정확도가 21점 하락했음을 밝혔습니다.