AuditCopilot은 오픈 소스 LLM(Mistral-8B, Gemma, Llama-3.1)을 기업 분개 부정 탐지에 적용하여 오탐(false positive)을 942건에서 12건으로 줄였습니다. 하지만 소거 연구 결과, LLM은 독립적인 이상 탐지기가 아니라 주로 Isolation Forest 점수 위에 구축된 종합 레이어로 기능한다는 점이 밝혀졌습니다.
TAT-LLM은 FinQA에서 64.60%의 EM을 달성하여 GPT-4의 63.91%를 능가했으며, 추론을 결정론적인 추출-추론-실행 단계로 분해하여 산술 오류를 제거함으로써 재무 표-텍스트 QA 벤치마크에서 LoRA로 LLaMA 2 7B를 미세 조정했습니다.
7B 파라미터 LLM을 대상으로 RAG와 비지도 파인튜닝을 실증 비교한 결과, RAG는 학습 중단 시점 이후의 사실에 대해 0.875 이상의 정확도를 달성한 반면 파인튜닝은 0.504에서 정체되었습니다. 이는 Beancount 에이전트 설계 및 빈번한 지식 업데이트가 필요한 시스템에 직접적인 시사점을 제공합니다.
IRCoT는 BM25 검색을 사고의 사슬 추론 루프의 각 단계와 교차시켜, 단일 단계 RAG 대비 HotpotQA에서 검색 재현율 +11.3, F1 점수 +7.1을 달성했습니다. 또한 검색 전략이 적절할 경우 3B 모델이 GPT-3 175B를 능가할 수 있음을 보여줍니다.
FLARE(EMNLP 2023)는 토큰 확률 신뢰도 임계값을 기반으로 생성 도중에 검색을 트리거하여 표준 RAG를 개선합니다. 2WikiMultihopQA에서 단일 검색의 39.4 EM 대비 51.0 EM을 달성했지만, 지시어 튜닝된 채팅 모델에서의 캘리브레이션 실패로 인해 실제 프로덕션 환경의 금융 에이전트에서의 신뢰성은 제한적입니다.
Lewis 등의 NeurIPS 2020 논문은 2,100만 개의 위키피디아 구절에 대한 FAISS 인덱싱 검색기와 BART-large 생성기를 결합한 하이브리드 RAG 아키텍처를 도입했습니다. 이 모델은 Natural Questions에서 44.5 EM을 달성했으며, 현재 대부분의 프로덕션 AI 시스템의 근간이 되는 파라미터형/비파라미터형 메모리 분리 구조를 확립했습니다. 본 리뷰에서는 RAG-Sequence와 RAG-Token의 트레이드오프, 검색 붕괴(retrieval collapse) 실패 모드, 그리고 추가 전용 Beancount 원장을 기반으로 구축된 금융 AI에서 오래된 인덱스가 갖는 의미를 다룹니다.
MultiHiertt (ACL 2022)는 실제 재무 보고서에서 추출한 10,440개의 QA 쌍을 소개하며, 각 보고서는 평균 3.89개의 계층적 테이블을 포함합니다. 최신 모델의 F1 점수는 38%인 반면 인간은 87%를 기록했으며, 교차 테이블 질문에서는 15점의 점수 하락이 발생했습니다. 이는 금융 AI가 해결해야 할 정보 검색 격차를 수치화한 것입니다.
ConvFinQA (EMNLP 2022)는 FinQA를 S&P 500 수익 보고서에 대한 다회차 대화로 확장하여, 가장 우수한 미세 조정 모델이 68.9%의 실행 정확도를 달성한 반면 인간 전문가는 89.4%를 기록했음을 발견했습니다. 특히 모델이 서로 다른 금융 주제 간에 수치적 맥락을 유지해야 하는 하이브리드 다측면 대화에서는 정확도가 52.4%까지 떨어졌습니다.
TAT-QA는 하이브리드 표-텍스트 금융 보고서 맥락에 대한 16,552개의 질문으로 구성된 벤치마크로, 금융 AI의 핵심 병목 현상이 산술 능력이 아닌 근거 도출(evidence grounding)임을 보여주었습니다. 2024년까지 미세 조정된 7B LLM은 F1 점수 83%에 도달하며 인간의 한계치인 91%와의 격차를 대부분 좁혔습니다.