본문으로 건너뛰기

Bean Labs Research Log

PAL: 신뢰할 수 있는 금융 산술을 위한 프로그램 보조 언어 모델

PAL(프로그램 보조 언어 모델)은 계산을 파이썬 인터프리터에 위임함으로써 산술 집약적인 작업에서 생각의 사슬(Chain-of-Thought)보다 38%p 높은 정확도 향상을 달성했습니다. 이는 신뢰할 수 있는 Beancount 원장 쿼리 및 금융 AI를 위한 직접 적용 가능한 아키텍처입니다.

Latest articles

LLM이 표 형식 데이터를 추론할 수 있을까? 금융 AI에 대해 4가지 벤치마크가 시사하는 바

2024~2025년의 4가지 벤치마크에 따르면, 실제 표 QA에서 GPT-4는 인간의 86%에 비해 42%의 점수를 기록했으며, 복잡한 집계 작업에서는 19.6%까지 하락했습니다. 또한 Beancount의 네이티브 구문은 LLM 입력을 위한 직렬화 계층 구조에서 가장 낮은 성능을 보이는 위치에 있습니다.

회계 에이전트를 위한 헌법적 AI: RLAIF, 정책 규칙 및 굿하트의 법칙 리스크

Anthropic의 헌법적 AI(Constitutional AI) 논문(Bai et al., 2022)은 인간의 유해성 레이블 대신 AI 생성 피드백을 사용하여 LLM이 규칙을 따르도록 훈련합니다. 이 연구 로그는 RLAIF의 비판-수정-선호도 파이프라인이 자율적인 Beancount 원장 에이전트의 쓰기 작업 안전성에 어떻게 매핑되는지, 그리고 "헌법"이 윤리 규칙 세트가 아닌 계정 과목표일 때 굿하트의 법칙(Goodharting), 보정 실패 및 이중 용도 리스크가 어떤 모습인지 살펴봅니다.

생각의 사슬 프롬프팅: 금융 AI를 위한 정밀도-재현율 트레이드오프

Wei 외 연구진의 2022년 생각의 사슬(Chain-of-Thought) 논문을 심층 분석하고, 이것이 금융 AI에 시사하는 바를 살펴봅니다. CoT가 정밀도를 높이는 반면 희귀 이벤트 탐지에서 재현율을 낮출 수 있는 이유, 프로덕션 에이전트에서 스케일 임계값이 중요한 이유, 그리고 LLM 기반 금융 팀이 주의해야 할 점을 다룹니다.

PHANTOM (NeurIPS 2025): 금융 문서에서의 LLM 환각 탐지 측정

PHANTOM(NeurIPS 2025)은 최대 30,000 토큰의 문맥 길이에 걸쳐 실제 SEC 공시 서류를 대상으로 LLM 환각 탐지를 측정하는 최초의 벤치마크입니다. Qwen3-30B-A3B-Thinking이 F1=0.882로 선두를 달리고 있으며, 7B 모델은 무작위 추측에 가까운 점수를 기록했습니다. 이는 자율 회계 에이전트에게 직접적인 시사점을 제공합니다.

FinMaster 벤치마크: LLM이 금융 문해력에서 96%를 기록하면서도 재무제표 생성에서는 3%에 그치는 이유

FinMaster(arXiv:2505.13533)는 183개의 금융 작업을 통해 o3-mini, Claude 3.7 Sonnet, DeepSeek-V3를 벤치마킹했습니다. 그 결과, 모델들이 금융 문해력에서는 96%의 점수를 기록했으나 재무제표 생성에서는 3%로 급락했으며, 다단계 컨설팅 작업에서는 오류 전파로 인해 정확도가 21점 하락했음을 밝혔습니다.

ReAct: 언어 모델에서의 추론과 행동의 시너지 창출

ReAct(Yao et al., ICLR 2023)는 단일 궤적 내에서 생각의 사슬(CoT) 추론과 도구 동작을 교차 배치하여, 사실 확인에서 순수 CoT를 능가하고 구체화된 작업의 모방 학습에서 34%포인트 더 높은 성능을 보여줍니다. 이 분석은 검색으로 인한 주의 분산 및 오류 누적과 같은 논문의 실패 모드와 이것이 Beancount 장부에 기록을 남기는 자율 에이전트에게 어떤 의미가 있는지 다룹니다.

Toolformer: 자기 지도형 도구 사용과 금융 AI를 위한 한계

Toolformer(Meta AI, NeurIPS 2023)를 자세히 분석합니다. 퍼플렉시티 필터링 기반의 자기 지도형 학습을 통해 67억 개의 파라미터를 가진 모델이 외부 API를 호출하는 법을 배우는 과정, 산술 벤치마크에서 1,750억 개의 파라미터를 가진 GPT-3를 능가하는 이유, 그리고 단일 단계 아키텍처가 구조화된 장부 작업에 필요한 연쇄적 도구 호출을 지원하지 못하는 이유를 다룹니다.

FinBen: 36가지 금융 과제에 대한 LLM 벤치마킹 — 회계 AI를 위한 시사점

FinBen은 NeurIPS 2024에서 36개의 금융 데이터셋을 통해 15개의 LLM을 평가했습니다. GPT-4는 수치 질의응답(QA)에서 0.63의 Exact Match를, 주가 변동 예측에서는 무작위 확률에 가까운 0.54를 기록했습니다. 이 수치들이 Beancount 원장 기반의 신뢰할 수 있는 회계 에이전트를 구축하는 데 어떤 의미가 있는지 살펴봅니다.