FinRAGBench-V(EMNLP 2025)는 금융 분야에서 시각적 인용을 포함한 멀티모달 RAG를 위한 최초의 대규모 벤치마크 로, 112,000페이지 이상의 문서와 1,394개의 사람이 주석을 단 질의응답 쌍을 포함합니다. 상위 모델들은 블록 수준 인용 재현율이 20~61%에 불과하며, 멀티모달 검색은 텍스트 전용 검색보다 거의 50% 포인트 더 높은 성능을 보입니다.
EnterpriseArena는 생존율, 최종 가치, 결산율을 추적하며 11개의 LLM을 대상으로 132개월간의 CFO 시뮬레이션을 수행했습니다. 오직 Qwen3.5-9B만이 80%의 실행에서 생존했으며, GPT-5.4와 DeepSeek-V3.1은 0%를 기록했습니다. 인간 전문가는 100% 생존율과 최종 가치 5배를 달성했습니다. 결정적인 병목 현상은 LLM이 80%의 경우 장부 대조를 건너뛰고 오래된 재무 상태를 바탕으로 행동한다는 점이었습니다.
FinMCP-Bench는 65개의 MCP 서버를 기반으로 하는 613개의 실제 금융 도구 사용 작업에서 6개의 LLM 모델을 평가합니다. 가장 우수한 모델도 멀티턴 작업에서 3.08%의 완전 일치(exact match) 점수를 기록하여, 단일 도구 사용 대비 멀티턴 시나리오에서 성능이 20배 하락함을 보여줍니다.
추가 학습이 필요 없는 추론 시점 보정 기술은 LLM 어텐션 가중치에서 위치적 편향을 제거하여, 검색된 문서가 컨텍스트 중간에 위치할 때 RAG 정확도를 최대 15% 포인트까지 회복시킵니다. 금융 특화 에이전트 파이프라인에 미치는 영향을 살펴봅니다.
Fin-RATE는 2,472개의 SEC 공시에서 추출한 7,500개의 전문가 큐레이션 QA 쌍을 통해 17개의 LLM을 벤치마킹하여, 시계열 추적 시 정확도가 18.60% 급락하고 금융 특화 모델인 Fin-R1 의 경우 기업 간 작업에서 54포인트 하락하는 등 한계를 드러냈습니다. 또한 검색(retrieval) 파이프라인이 백본 모델보다 더 큰 병목 현상인 것으로 나타났습니다.
NVIDIA와 Caltech의 GPT-4 기반 Minecraft 에이전트인 Voyager는 영구적인 코드 스킬 라이브러리가 미세 조정 없이도 진정한 평생 학습을 가능하게 한다는 점을 보여주며, 기존의 최신 기술보다 3.3배 더 많은 아이템을 발견했습니다. 이 패 턴은 장기적인 Beancount 원장 자동화에 직접적으로 적용될 수 있지만, 재무적 정확성을 위해서는 게임 샌드박스에서는 필요하지 않았던 스테이징 레이어가 필요합니다.
AutoGen(Wu et al., 2023)은 LLM 기반 에이전트들이 메시지를 주고받으며 작업을 완료하는 멀티 에이전트 대화 프레임워크를 소개합니다. 2개 에이전트 구성으로 MATH 벤치마크 정확도를 55%에서 69%로 높였으며, 전용 SafeGuard 에이전트는 안전하지 않은 코드 탐지 성능을 최대 35 F1 포인트 개선했습니다. 이러한 결과는 안전하고 모듈화된 Beancount 자동화 파이프라인 구축에 직접적으로 적용될 수 있습니다.
CodeAct(ICML 2024)는 JSON 도구 호출을 실행 가능한 파이썬 코드로 대체하여 다중 도구 작업에서 GPT-4 에이전트 성공률을 약 20%포인트 향상시키고 상호 작용 횟수를 30% 줄였습니다. 이는 신뢰할 수 있는 Beancount 대조 에이전트 구축에 직접적인 시사점을 제공합니다.
CRITIC(ICLR 2024)은 외부 도구 신호를 바탕으로 LLM 수정을 수행하여 오픈 도메인 QA에서 7.7 F1 점수 향상과 79.2%의 유해성 감소를 달성했습니다. 이는 Beancount 금융 에이전트의 기록 안전성(write-back safety)에 직접 적용할 수 있는 '검증 후 수정' 루프입니다.
ReAct(Yao et al., ICLR 2023)는 단일 궤적 내에서 생각의 사슬(CoT) 추론과 도구 동작을 교차 배치하여, 사실 확인에서 순수 CoT를 능가하고 구체화된 작업의 모방 학습에서 34%포인트 더 높은 성능을 보여줍니다. 이 분석은 검색으로 인한 주의 분산 및 오류 누적과 같은 논문의 실패 모드와 이것이 Beancount 장부에 기록을 남기는 자율 에이전트에게 어떤 의미가 있는지 다룹니다.