Mike Thrift
Marketing Manager
GuardAgent: 코드 실행을 통한 LLM 에이전트의 결정론적 안전 강제
GuardAgent(ICML 2025)는 대상 에이전트와 환경 사이에 별도의 LLM 에이전트를 배치하여, Python 코드를 생성하고 실행함으로써 제안된 모든 동작을 검증합니다. 이를 통해 프롬프트 내장형 안전 규칙이 81%의 정확도와 29~71%의 작업 실패율을 보이는 것과 대조적으로, 100%의 작업 완료율을 유지하면서 98.7%의 정책 준수 정확도를 달성합니다.
다중 에이전트 LLM 토론: 실질적인 정확도 향상, 제어되지 않은 연산 비용, 그리고 집단적 망상
산술 능력에서 14.8점의 정확도 향상을 보고한 Du 등의 ICML 2024 다중 에이전트 토론 논문을 분석하고, 동일한 예산의 단일 에이전트 성능과 비교한 2025년 반박 연구, 그리고 토론 실패의 65%를 차지하는 '집단적 망상'이 AI 기반 장부 기입에 미치는 위험성을 살펴봅니다.
LLM은 시계열 예측에 유용하지 않다: NeurIPS 2024가 금융 AI에 시사하는 바
NeurIPS 2024 Spotlight 논문은 OneFitsAll, Time-LLM, CALF 등 세 가지 LLM 기반 시계열 예측 방법을 분석한 결과, 언어 모델을 제거했을 때 대부분의 경우 정확도가 향상되고 학습 속도가 최대 1,383배 빨라진다는 사실을 발견했습니다. Beancount 잔액 예측과 같은 금융 AI 애플리케이션의 경우, 가벼운 전용 모델이 기존 LLM을 재활용한 모델보다 일관되게 우수한 성능을 보입니다.
AuditCopilot: 복식 부기 부정 탐지를 위한 LLM 활용
AuditCopilot은 오픈 소스 LLM(Mistral-8B, Gemma, Llama-3.1)을 기업 분개 부정 탐지에 적용하여 오탐(false positive)을 942건에서 12건으로 줄였습니다. 하지만 소거 연구 결과, LLM은 독립적인 이상 탐지기가 아니라 주로 Isolation Forest 점수 위에 구축된 종합 레이어로 기능한다는 점이 밝혀졌습니다.
TAT-LLM: 금융 표 및 텍스트에 대한 이산적 추론을 위해 미세 조정된 LLaMA 2
TAT-LLM은 FinQA에서 64.60%의 EM을 달성하여 GPT-4의 63.91%를 능가했으며, 추론을 결정론적인 추출-추론-실행 단계로 분해하여 산술 오류를 제거함으로써 재무 표-텍스트 QA 벤치마크에서 LoRA로 LLaMA 2 7B를 미세 조정했습니다.
파인튜닝 vs. RAG: LLM에 새로운 지식을 주입할 때 검색 기능이 우세한 이유
7B 파라미터 LLM을 대상으로 RAG와 비지도 파인튜닝을 실증 비교한 결과, RAG는 학습 중단 시점 이후의 사실에 대해 0.875 이상의 정확도를 달성한 반면 파인튜닝은 0.504에서 정체되었습니다. 이는 Beancount 에이전트 설계 및 빈번한 지식 업데이트가 필요한 시스템에 직접적인 시사점을 제공합니다.
IRCoT: 다단계 QA를 위한 검색과 사고의 사슬(Chain-of-Thought) 교차 방식
IRCoT는 BM25 검색을 사고의 사슬 추론 루프의 각 단계와 교차시켜, 단일 단계 RAG 대비 HotpotQA에서 검색 재현율 +11.3, F1 점수 +7.1을 달성했습니다. 또한 검색 전략이 적절할 경우 3B 모델이 GPT-3 175B를 능가할 수 있음을 보여줍니다.
FLARE: 능동적 검색 증강 생성(Active Retrieval Augmented Generation)
FLARE(EMNLP 2023)는 토큰 확률 신뢰도 임계값을 기반으로 생성 도중에 검색을 트리거하여 표준 RAG를 개선합니다. 2WikiMultihopQA에서 단일 검색의 39.4 EM 대비 51.0 EM을 달성했지만, 지시어 튜닝된 채팅 모델에서의 캘리브레이션 실패로 인해 실제 프로덕션 환경의 금융 에이전트에서의 신뢰성은 제한적입니다.
지식 집약적 NLP 작업을 위한 검색 증강 생성(RAG)
Lewis 등의 NeurIPS 2020 논문은 2,100만 개의 위키피디아 구절에 대한 FAISS 인덱싱 검색기와 BART-large 생성기를 결합한 하이브리드 RAG 아키텍처를 도입했습니다. 이 모델은 Natural Questions에서 44.5 EM을 달성했으며, 현재 대부분의 프로덕션 AI 시스템의 근간이 되는 파라미터형/비파라미터형 메모리 분리 구조를 확립했습니다. 본 리뷰에서는 RAG-Sequence와 RAG-Token의 트레이드오프, 검색 붕괴(retrieval collapse) 실패 모드, 그리고 추가 전용 Beancount 원장을 기반으로 구축된 금융 AI에서 오래된 인덱스가 갖는 의미를 다룹니다.
MultiHiertt: 다중 계층 재무 제표에 대한 수치 추론 벤치마킹
MultiHiertt (ACL 2022)는 실제 재무 보고서에서 추출한 10,440개의 QA 쌍을 소개하며, 각 보고서는 평균 3.89개의 계층적 테이블을 포함합니다. 최신 모델의 F1 점수는 38%인 반면 인간은 87%를 기록했으며, 교차 테이블 질문에서는 15점의 점수 하락이 발생했습니다. 이는 금융 AI가 해결해야 할 정보 검색 격차를 수치화한 것입니다.
ConvFinQA: 다회차 금융 질의응답과 모델 및 전문가 사이의 21포인트 격차
ConvFinQA (EMNLP 2022)는 FinQA를 S&P 500 수익 보고서에 대한 다회차 대화로 확장하여, 가장 우수한 미세 조정 모델이 68.9%의 실행 정확도를 달성한 반면 인간 전문가는 89.4%를 기록했음을 발견했습니다. 특히 모델이 서로 다른 금융 주제 간에 수치적 맥락을 유지해야 하는 하이브리드 다측면 대화에서는 정확도가 52.4%까지 떨어졌습니다.
TAT-QA: 재무 연례 보고서 추론을 위한 하이브리드 표-텍스트 질의응답 벤치마크
TAT-QA는 하이브리드 표-텍스트 금융 보고서 맥락에 대한 16,552개의 질문으로 구성된 벤치마크로, 금융 AI의 핵심 병목 현상이 산술 능력이 아닌 근거 도출(evidence grounding)임을 보여주었습니다. 2024년까지 미세 조정된 7B LLM은 F1 점수 83%에 도달하며 인간의 한계치인 91%와의 격차를 대부분 좁혔습니다.