FinRAGBench-V(EMNLP 2025)는 금융 분야에서 시각적 인용을 포함한 멀티모달 RAG를 위한 최초의 대규모 벤치마크로, 112,000페이지 이상의 문서와 1,394개의 사람이 주석을 단 질의응답 쌍을 포함합니다. 상위 모델들은 블록 수준 인용 재현율이 20~61%에 불과하며, 멀티모달 검색은 텍스트 전용 검색보다 거의 50% 포인트 더 높은 성능을 보입니다.
EnterpriseArena는 생존율, 최종 가치, 결산율을 추적하며 11개의 LLM을 대상으로 132개월간의 CFO 시뮬레이션을 수행했습니다. 오직 Qwen3.5-9B만이 80%의 실행에서 생존했으며, GPT-5.4와 DeepSeek-V3.1은 0%를 기록했습니다. 인간 전문가는 100% 생존율과 최종 가치 5배를 달성했습니다. 결정적인 병목 현상은 LLM이 80%의 경우 장부 대조를 건너뛰고 오래된 재무 상태를 바탕으로 행동한다는 점이었습니다.
WildToolBench(ICLR 2026)는 실제 사용자 행동에서 추출된 1,024개의 작업에 대해 57개의 LLM을 평가합니다. 그 결과 세션 정확도가 15%를 넘는 모델은 없었으며, 구성적 오케스트레이션, 숨겨진 의도, 지시어 전환이 세 가지 주요 실패 유형으로 나타났습니다.
화이트박스 로 짓 접근법, 일관성 기반 SelfCheckGPT, 의미론적 엔트로피 등 LLM 신뢰도 추정 및 캘리브레이션 방법에 대한 체계적인 서베이에 따르면, GPT-4의 언어화된 신뢰도 점수는 AUROC 약 62.7%에 불과하여 우연보다 약간 높은 수준인 것으로 나타났습니다. 이는 금융 및 회계 분야에서 불확실성을 인지하는 에이전트를 배포할 때 직접적인 시사점을 제공합니다.
JSONSchemaBench는 9,558개의 실제 JSON 스키마를 6개의 제약 조건 기반 디코딩 프레임워크에서 테스트했습니다. 그 결과, 스키마 복잡성으로 인해 단순 스키마에서의 86% 커버리지가 복잡한 스키마에서는 3%로 급감했으며, XGrammar는 38개의 비준수 출력을 조용히 내보냈고, 어떤 프레임워크도 45개의 JSON 스키마 기능 카테고리를 모두 지원하지 못했습니다.
FinMCP-Bench는 65개의 MCP 서버를 기반으로 하는 613개의 실제 금융 도구 사용 작업에서 6개의 LLM 모델을 평가합니다. 가장 우수한 모델도 멀티턴 작업에서 3.08%의 완전 일치(exact match) 점수를 기록하여, 단일 도구 사용 대비 멀티턴 시나리오에서 성능이 20배 하락함을 보여줍니다.
FinTrace는 9가지 지표를 통해 800개의 전문가 주석이 달린 금융 작업 궤적에서 13개의 LLM을 벤치마킹했습니다. 그 결과, 프런티어 모델들은 강력한 도구 선택 능력(F1 ~0.9)을 달성했지만, 에이전트가 도구의 반환 값을 추론하는 단계인 '정보 활용' 점수에서는 5점 만점에 3.23점에 그쳤습니다.
FinToolBench는 760개의 실시간 금융 API 도구와 295개의 실행 가능한 쿼리를 결합하여 실제 금융 작업에 대한 LLM 에이전트를 벤치마킹합니다. GPT-4o의 보수적인 22.7% 호출률이 Qwen3-8B의 공격적인 87.1% TIR보다 높은 답변 품질(CSS 0.670)을 제공하는 반면, 의도 불일치(intent mismatch)는 모든 테스트 모델에서 50%를 초과하는 것으로 나타났습니다.
OmniEval(EMNLP 2025)은 11,400개의 자동 생성된 테스트 케이스를 사용하여 5가지 작업 유형 × 16가지 금융 주제에 걸쳐 RAG 시스템을 벤치마킹합니다. 최고의 시스템조차 수치 정확도가 36%에 불과하며, 이는 구조화된 금융 원장에 기록하기 전에 RAG 파이프라인에 검증 계층이 필요하다는 구체적인 증거입니다.
Xu 및 Ding의 LLM 기반 이상 및 OOD 탐지에 관한 NAACL 2025 서베이에 대한 비판적 검토입니다. 탐지 대 생성 분류 체계는 유효하지만, 정형 데이터에 대한 설명이 거의 전무하여 금융 AI 실무자는 비전 모델의 통찰력을 직접 합성해야 합니다.