Bean Labs Research Log

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: 왜 벡터 저장소 RAG가 실제 금융 문서에서 실패하는가

FinanceBench는 실제 SEC 공시를 바탕으로 한 10,231개의 질문을 통해 16가지 AI 구성을 평가합니다. 공유 벡터 저장소 RAG는 정답률이 19%에 불과하며, 오라클 패시지를 사용한 GPT-4-Turbo조차 85% 정확도에 그쳤습니다. 이는 기업용 금융 AI의 핵심 제약 사항이 검색이 아닌 수치 추론임을 보여줍니다.

AILLMMachine LearningAutomationFinanceBeancount

DSPy: 취약한 프롬프트 엔지니어링을 컴파일된 LLM 파이프라인으로 대체하기

DSPy는 수작업으로 작성된 프롬프트 문자열을 선언적 시그니처와 메트릭 기반 컴파일러로 대체합니다. 이를 통해 GSM8K 수학 추론에서 Llama2-13b의 성능을 9.4%에서 46.9%로 끌어올렸으며, 운영 환경의 금융 AI 파이프라인을 위한 더 유지보수가 용이한 경로를 제공합니다.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: Language Agent Tree Search — 추론, 행동, 계획을 하나의 프레임워크로 통합

LATS(Language Agent Tree Search, ICML 2024)는 ReAct, Tree of Thoughts, Reflexion을 단일 MCTS 프레임워크로 통합하여 GPT-4와 함께 HumanEval에서 92.7%의 pass@1을 달성했습니다. Git 기반의 Beancount 장부의 경우, 운영 환경에서 LATS를 제한하는 상태 복원 요구 사항을 아주 쉽게 충족할 수 있습니다.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: LLM을 위한 적응형 검색 및 자기 비판

Self-RAG (ICLR 2024 Oral)는 언어 모델이 검색 시점을 결정하고 4개의 성찰 토큰을 사용하여 결과를 직접 평가하도록 훈련합니다. PopQA에서 55.8%, 전기 부문 FactScore 80.2를 기록하며 5개 벤치마크에서 ChatGPT를 능가했습니다. 이 분석은 메커니즘, 절제 연구 결과, 재현성 한계, 그리고 Beancount 장부를 다루는 금융 AI 에이전트에 미치는 영향을 다룹니다.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: 평생 지속되는 AI 에이전트 학습의 기초로서의 스킬 라이브러리

NVIDIA와 Caltech의 GPT-4 기반 Minecraft 에이전트인 Voyager는 영구적인 코드 스킬 라이브러리가 미세 조정 없이도 진정한 평생 학습을 가능하게 한다는 점을 보여주며, 기존의 최신 기술보다 3.3배 더 많은 아이템을 발견했습니다. 이 패턴은 장기적인 Beancount 원장 자동화에 직접적으로 적용될 수 있지만, 재무적 정확성을 위해서는 게임 샌드박스에서는 필요하지 않았던 스테이징 레이어가 필요합니다.

LLMAIMachine LearningBeancountPlain-Text AccountingFinanceAutomation

HippoRAG: LLM을 위한 신경생물학 기반의 장기 기억 장치

HippoRAG(NeurIPS 2024)는 OpenIE 트리플로부터 지식 그래프를 구축하고 질의 시 개인화된 페이지랭크를 적용하여, 2WikiMultiHopQA에서 ColBERTv2의 68.2% 대비 89.1%의 Recall@5를 달성했습니다. 이는 수년간의 거래 내역이 포함된 복잡한 재무 장부를 조회하는 데 직접적인 시사점을 제공합니다.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: 에이전트로서의 LLM 평가 — 금융 AI 신뢰성을 위한 교훈

AgentBench (Liu 등, ICLR 2024)는 8개의 인터랙티브 환경에서 27개의 LLM을 벤치마킹했습니다. GPT-4는 전체 점수 4.01점을 기록한 반면, 최우수 오픈소스 모델은 0.96점에 그쳤습니다. 세 가지 주요 실패 모드(지식 그래프 실패의 67.9%를 차지하는 작업 한도 초과, 데이터베이스 실패의 53.3%를 차지하는 형식 오류, 유효하지 않은 작업)는 실제 장부에서 Beancount 쓰기 에이전트를 배포할 때의 위험과 직접적으로 연관됩니다.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT와 금융 도메인 특화 LLM의 한계

Bloomberg는 5,690억 개의 금융 데이터 토큰으로 500억 개의 파라미터를 가진 LLM을 학습시켜 감성 분석 및 표 추론 벤치마크에서 일반 모델을 압도했습니다. 그러나 이후 GPT-4가 금융 특화 사전 학습 없이도 이 성능을 따라잡았습니다. 1,000만 달러 규모의 이 실험이 도메인 사전 학습의 트레이드오프, 숫자의 토큰화, 그리고 왜 회계 에이전트에게 모델 내부 정보보다 도구 사용 기능이 더 신뢰할 수 있는지를 보여주는 바를 살펴봅니다.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: 금융 AI를 위한 멀티 에이전트 대화 프레임워크

AutoGen(Wu et al., 2023)은 LLM 기반 에이전트들이 메시지를 주고받으며 작업을 완료하는 멀티 에이전트 대화 프레임워크를 소개합니다. 2개 에이전트 구성으로 MATH 벤치마크 정확도를 55%에서 69%로 높였으며, 전용 SafeGuard 에이전트는 안전하지 않은 코드 탐지 성능을 최대 35 F1 포인트 개선했습니다. 이러한 결과는 안전하고 모듈화된 Beancount 자동화 파이프라인 구축에 직접적으로 적용될 수 있습니다.

FinQA: 재무 보고서의 AI 수치 추론 능력을 측정하는 벤치마크

Latest articles

FinanceBench: 왜 벡터 저장소 RAG가 실제 금융 문서에서 실패하는가

DSPy: 취약한 프롬프트 엔지니어링을 컴파일된 LLM 파이프라인으로 대체하기

LATS: Language Agent Tree Search — 추론, 행동, 계획을 하나의 프레임워크로 통합

Self-RAG: LLM을 위한 적응형 검색 및 자기 비판

Voyager: 평생 지속되는 AI 에이전트 학습의 기초로서의 스킬 라이브러리

HippoRAG: LLM을 위한 신경생물학 기반의 장기 기억 장치

AgentBench: 에이전트로서의 LLM 평가 — 금융 AI 신뢰성을 위한 교훈

BloombergGPT와 금융 도메인 특화 LLM의 한계

AutoGen: 금융 AI를 위한 멀티 에이전트 대화 프레임워크

Beancount.io 시작하기

시작하기

주요 기능

커뮤니티

법적 고지