Beancount DSL 생성에서 LLM 점수 2.3%: LLMFinLiteracy 벤치마크
LLMFinLiteracy 벤치마크에 따르면 5개의 약 7B 규모 공개 가중치 모델이 완전히 정확한 Beancount 트랜잭션을 생성할 확률은 2.3%에 불과했습니 다. 실패 원인은 구문이 아닌 회계적 추론에 집중되어 있으며, 이는 신뢰할 수 있는 라이트백(write-back) 에이전트를 위해 루프 내 컴파일러(compiler-in-the-loop) 피드백이 핵심적인 요소임을 시사합니다.
