본문으로 건너뛰기

Bean Labs Research Log

LLM은 시계열 예측에 유용하지 않다: NeurIPS 2024가 금융 AI에 시사하는 바

NeurIPS 2024 Spotlight 논문은 OneFitsAll, Time-LLM, CALF 등 세 가지 LLM 기반 시계열 예측 방법을 분석한 결과, 언어 모델을 제거했을 때 대부분의 경우 정확도가 향상되고 학습 속도가 최대 1,383배 빨라진다는 사실을 발견했습니다. Beancount 잔액 예측과 같은 금융 AI 애플리케이션의 경우, 가벼운 전용 모델이 기존 LLM을 재활용한 모델보다 일관되게 우수한 성능을 보입니다.

Latest articles

AuditCopilot: 복식 부기 부정 탐지를 위한 LLM 활용

AuditCopilot은 오픈 소스 LLM(Mistral-8B, Gemma, Llama-3.1)을 기업 분개 부정 탐지에 적용하여 오탐(false positive)을 942건에서 12건으로 줄였습니다. 하지만 소거 연구 결과, LLM은 독립적인 이상 탐지기가 아니라 주로 Isolation Forest 점수 위에 구축된 종합 레이어로 기능한다는 점이 밝혀졌습니다.

파인튜닝 vs. RAG: LLM에 새로운 지식을 주입할 때 검색 기능이 우세한 이유

7B 파라미터 LLM을 대상으로 RAG와 비지도 파인튜닝을 실증 비교한 결과, RAG는 학습 중단 시점 이후의 사실에 대해 0.875 이상의 정확도를 달성한 반면 파인튜닝은 0.504에서 정체되었습니다. 이는 Beancount 에이전트 설계 및 빈번한 지식 업데이트가 필요한 시스템에 직접적인 시사점을 제공합니다.

FLARE: 능동적 검색 증강 생성(Active Retrieval Augmented Generation)

FLARE(EMNLP 2023)는 토큰 확률 신뢰도 임계값을 기반으로 생성 도중에 검색을 트리거하여 표준 RAG를 개선합니다. 2WikiMultihopQA에서 단일 검색의 39.4 EM 대비 51.0 EM을 달성했지만, 지시어 튜닝된 채팅 모델에서의 캘리브레이션 실패로 인해 실제 프로덕션 환경의 금융 에이전트에서의 신뢰성은 제한적입니다.

지식 집약적 NLP 작업을 위한 검색 증강 생성(RAG)

Lewis 등의 NeurIPS 2020 논문은 2,100만 개의 위키피디아 구절에 대한 FAISS 인덱싱 검색기와 BART-large 생성기를 결합한 하이브리드 RAG 아키텍처를 도입했습니다. 이 모델은 Natural Questions에서 44.5 EM을 달성했으며, 현재 대부분의 프로덕션 AI 시스템의 근간이 되는 파라미터형/비파라미터형 메모리 분리 구조를 확립했습니다. 본 리뷰에서는 RAG-Sequence와 RAG-Token의 트레이드오프, 검색 붕괴(retrieval collapse) 실패 모드, 그리고 추가 전용 Beancount 원장을 기반으로 구축된 금융 AI에서 오래된 인덱스가 갖는 의미를 다룹니다.

MultiHiertt: 다중 계층 재무 제표에 대한 수치 추론 벤치마킹

MultiHiertt (ACL 2022)는 실제 재무 보고서에서 추출한 10,440개의 QA 쌍을 소개하며, 각 보고서는 평균 3.89개의 계층적 테이블을 포함합니다. 최신 모델의 F1 점수는 38%인 반면 인간은 87%를 기록했으며, 교차 테이블 질문에서는 15점의 점수 하락이 발생했습니다. 이는 금융 AI가 해결해야 할 정보 검색 격차를 수치화한 것입니다.

ConvFinQA: 다회차 금융 질의응답과 모델 및 전문가 사이의 21포인트 격차

ConvFinQA (EMNLP 2022)는 FinQA를 S&P 500 수익 보고서에 대한 다회차 대화로 확장하여, 가장 우수한 미세 조정 모델이 68.9%의 실행 정확도를 달성한 반면 인간 전문가는 89.4%를 기록했음을 발견했습니다. 특히 모델이 서로 다른 금융 주제 간에 수치적 맥락을 유지해야 하는 하이브리드 다측면 대화에서는 정확도가 52.4%까지 떨어졌습니다.

TAT-QA: 재무 연례 보고서 추론을 위한 하이브리드 표-텍스트 질의응답 벤치마크

TAT-QA는 하이브리드 표-텍스트 금융 보고서 맥락에 대한 16,552개의 질문으로 구성된 벤치마크로, 금융 AI의 핵심 병목 현상이 산술 능력이 아닌 근거 도출(evidence grounding)임을 보여주었습니다. 2024년까지 미세 조정된 7B LLM은 F1 점수 83%에 도달하며 인간의 한계치인 91%와의 격차를 대부분 좁혔습니다.