Bean Labs Research Log

Fraud DetectionLLMDouble-EntryJournal EntriesAIMachine LearningComplianceBookkeeping

AuditCopilot: 복식 부기 부정 탐지를 위한 LLM 활용

AuditCopilot은 오픈 소스 LLM(Mistral-8B, Gemma, Llama-3.1)을 기업 분개 부정 탐지에 적용하여 오탐(false positive)을 942건에서 12건으로 줄였습니다. 하지만 소거 연구 결과, LLM은 독립적인 이상 탐지기가 아니라 주로 Isolation Forest 점수 위에 구축된 종합 레이어로 기능한다는 점이 밝혀졌습니다.

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: 금융 표 및 텍스트에 대한 이산적 추론을 위해 미세 조정된 LLaMA 2

TAT-LLM은 FinQA에서 64.60%의 EM을 달성하여 GPT-4의 63.91%를 능가했으며, 추론을 결정론적인 추출-추론-실행 단계로 분해하여 산술 오류를 제거함으로써 재무 표-텍스트 QA 벤치마크에서 LoRA로 LLaMA 2 7B를 미세 조정했습니다.

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

파인튜닝 vs. RAG: LLM에 새로운 지식을 주입할 때 검색 기능이 우세한 이유

7B 파라미터 LLM을 대상으로 RAG와 비지도 파인튜닝을 실증 비교한 결과, RAG는 학습 중단 시점 이후의 사실에 대해 0.875 이상의 정확도를 달성한 반면 파인튜닝은 0.504에서 정체되었습니다. 이는 Beancount 에이전트 설계 및 빈번한 지식 업데이트가 필요한 시스템에 직접적인 시사점을 제공합니다.

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT: 다단계 QA를 위한 검색과 사고의 사슬(Chain-of-Thought) 교차 방식

IRCoT는 BM25 검색을 사고의 사슬 추론 루프의 각 단계와 교차시켜, 단일 단계 RAG 대비 HotpotQA에서 검색 재현율 +11.3, F1 점수 +7.1을 달성했습니다. 또한 검색 전략이 적절할 경우 3B 모델이 GPT-3 175B를 능가할 수 있음을 보여줍니다.

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE: 능동적 검색 증강 생성(Active Retrieval Augmented Generation)

FLARE(EMNLP 2023)는 토큰 확률 신뢰도 임계값을 기반으로 생성 도중에 검색을 트리거하여 표준 RAG를 개선합니다. 2WikiMultihopQA에서 단일 검색의 39.4 EM 대비 51.0 EM을 달성했지만, 지시어 튜닝된 채팅 모델에서의 캘리브레이션 실패로 인해 실제 프로덕션 환경의 금융 에이전트에서의 신뢰성은 제한적입니다.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancount

지식 집약적 NLP 작업을 위한 검색 증강 생성(RAG)

Lewis 등의 NeurIPS 2020 논문은 2,100만 개의 위키피디아 구절에 대한 FAISS 인덱싱 검색기와 BART-large 생성기를 결합한 하이브리드 RAG 아키텍처를 도입했습니다. 이 모델은 Natural Questions에서 44.5 EM을 달성했으며, 현재 대부분의 프로덕션 AI 시스템의 근간이 되는 파라미터형/비파라미터형 메모리 분리 구조를 확립했습니다. 본 리뷰에서는 RAG-Sequence와 RAG-Token의 트레이드오프, 검색 붕괴(retrieval collapse) 실패 모드, 그리고 추가 전용 Beancount 원장을 기반으로 구축된 금융 AI에서 오래된 인덱스가 갖는 의미를 다룹니다.