본문으로 건너뛰기

Bean Labs Research Log

FinQA: 재무 보고서의 AI 수치 추론 능력을 측정하는 벤치마크

FinQA(EMNLP 2021)는 다단계 산술 프로그램이 필요한 S&P 500 실적 보고서에서 8,281개의 질의응답 쌍을 구축했습니다. 발표 당시 신경망 모델은 61%를 기록한 반면 인간 전문가는 91%를 기록했습니다. 3단계 이상의 프로그램에서는 정확도가 22%로 급락합니다. 도메인 상수, 교차 모달리티 근거 제시, 체인 길이 등 실패 모드는 오늘날 Beancount 에이전트가 직면한 과제와 직접적으로 연결됩니다.

Latest articles

FinanceBench: 왜 벡터 저장소 RAG가 실제 금융 문서에서 실패하는가

FinanceBench는 실제 SEC 공시를 바탕으로 한 10,231개의 질문을 통해 16가지 AI 구성을 평가합니다. 공유 벡터 저장소 RAG는 정답률이 19%에 불과하며, 오라클 패시지를 사용한 GPT-4-Turbo조차 85% 정확도에 그쳤습니다. 이는 기업용 금융 AI의 핵심 제약 사항이 검색이 아닌 수치 추론임을 보여줍니다.

DSPy: 취약한 프롬프트 엔지니어링을 컴파일된 LLM 파이프라인으로 대체하기

DSPy는 수작업으로 작성된 프롬프트 문자열을 선언적 시그니처와 메트릭 기반 컴파일러로 대체합니다. 이를 통해 GSM8K 수학 추론에서 Llama2-13b의 성능을 9.4%에서 46.9%로 끌어올렸으며, 운영 환경의 금융 AI 파이프라인을 위한 더 유지보수가 용이한 경로를 제공합니다.

LATS: Language Agent Tree Search — 추론, 행동, 계획을 하나의 프레임워크로 통합

LATS(Language Agent Tree Search, ICML 2024)는 ReAct, Tree of Thoughts, Reflexion을 단일 MCTS 프레임워크로 통합하여 GPT-4와 함께 HumanEval에서 92.7%의 pass@1을 달성했습니다. Git 기반의 Beancount 장부의 경우, 운영 환경에서 LATS를 제한하는 상태 복원 요구 사항을 아주 쉽게 충족할 수 있습니다.

Self-RAG: LLM을 위한 적응형 검색 및 자기 비판

Self-RAG (ICLR 2024 Oral)는 언어 모델이 검색 시점을 결정하고 4개의 성찰 토큰을 사용하여 결과를 직접 평가하도록 훈련합니다. PopQA에서 55.8%, 전기 부문 FactScore 80.2를 기록하며 5개 벤치마크에서 ChatGPT를 능가했습니다. 이 분석은 메커니즘, 절제 연구 결과, 재현성 한계, 그리고 Beancount 장부를 다루는 금융 AI 에이전트에 미치는 영향을 다룹니다.

Voyager: 평생 지속되는 AI 에이전트 학습의 기초로서의 스킬 라이브러리

NVIDIA와 Caltech의 GPT-4 기반 Minecraft 에이전트인 Voyager는 영구적인 코드 스킬 라이브러리가 미세 조정 없이도 진정한 평생 학습을 가능하게 한다는 점을 보여주며, 기존의 최신 기술보다 3.3배 더 많은 아이템을 발견했습니다. 이 패턴은 장기적인 Beancount 원장 자동화에 직접적으로 적용될 수 있지만, 재무적 정확성을 위해서는 게임 샌드박스에서는 필요하지 않았던 스테이징 레이어가 필요합니다.

HippoRAG: LLM을 위한 신경생물학 기반의 장기 기억 장치

HippoRAG(NeurIPS 2024)는 OpenIE 트리플로부터 지식 그래프를 구축하고 질의 시 개인화된 페이지랭크를 적용하여, 2WikiMultiHopQA에서 ColBERTv2의 68.2% 대비 89.1%의 Recall@5를 달성했습니다. 이는 수년간의 거래 내역이 포함된 복잡한 재무 장부를 조회하는 데 직접적인 시사점을 제공합니다.

AgentBench: 에이전트로서의 LLM 평가 — 금융 AI 신뢰성을 위한 교훈

AgentBench (Liu 등, ICLR 2024)는 8개의 인터랙티브 환경에서 27개의 LLM을 벤치마킹했습니다. GPT-4는 전체 점수 4.01점을 기록한 반면, 최우수 오픈소스 모델은 0.96점에 그쳤습니다. 세 가지 주요 실패 모드(지식 그래프 실패의 67.9%를 차지하는 작업 한도 초과, 데이터베이스 실패의 53.3%를 차지하는 형식 오류, 유효하지 않은 작업)는 실제 장부에서 Beancount 쓰기 에이전트를 배포할 때의 위험과 직접적으로 연관됩니다.

BloombergGPT와 금융 도메인 특화 LLM의 한계

Bloomberg는 5,690억 개의 금융 데이터 토큰으로 500억 개의 파라미터를 가진 LLM을 학습시켜 감성 분석 및 표 추론 벤치마크에서 일반 모델을 압도했습니다. 그러나 이후 GPT-4가 금융 특화 사전 학습 없이도 이 성능을 따라잡았습니다. 1,000만 달러 규모의 이 실험이 도메인 사전 학습의 트레이드오프, 숫자의 토큰화, 그리고 왜 회계 에이전트에게 모델 내부 정보보다 도구 사용 기능이 더 신뢰할 수 있는지를 보여주는 바를 살펴봅니다.

AutoGen: 금융 AI를 위한 멀티 에이전트 대화 프레임워크

AutoGen(Wu et al., 2023)은 LLM 기반 에이전트들이 메시지를 주고받으며 작업을 완료하는 멀티 에이전트 대화 프레임워크를 소개합니다. 2개 에이전트 구성으로 MATH 벤치마크 정확도를 55%에서 69%로 높였으며, 전용 SafeGuard 에이전트는 안전하지 않은 코드 탐지 성능을 최대 35 F1 포인트 개선했습니다. 이러한 결과는 안전하고 모듈화된 Beancount 자동화 파이프라인 구축에 직접적으로 적용될 수 있습니다.