FinToolBench는 760개의 실시간 금융 API 도구와 295개의 실행 가능한 쿼리를 결합하여 실제 금융 작업에 대한 LLM 에이 전트를 벤치마킹합니다. GPT-4o의 보수적인 22.7% 호출률이 Qwen3-8B의 공격적인 87.1% TIR보다 높은 답변 품질(CSS 0.670)을 제공하는 반면, 의도 불일치(intent mismatch)는 모든 테스트 모델에서 50%를 초과하는 것으로 나타났습니다.
CMU 및 NC State 연구진은 시스템 이론적 공정 분석(STPA)과 기능이 강화된 모델 컨텍스트 프로토콜을 사용하여 LLM 에이전트 도구 사용에 대한 형식적 안전 사양을 도출할 것을 제안하며, 캘린더 일정 관리 사례 연구를 통해 안전하지 않 은 흐름이 없음을 입증하는 Alloy 기반 검증을 선보입니다.
FinAuditing은 1,102개의 실제 SEC XBRL 공시 사례를 대상으로 13개의 LLM을 제로샷(zero-shot)으로 테스트했습니다. 최고 점수는 재무 수학 검증에서 13.86%, 개념 검색에서 12.42%로 나타났으며, 이는 외부 도구 없이 AI 회계 도구가 자동화할 수 있는 신뢰 범위의 한계를 직접적으로 보여줍니다.
AGrail (ACL 2025)은 테스트 시간 적응(TTA)을 통해 추론 시 안전 점검을 조정하는 두 개의 LLM 협력 가드레일을 도입하여, Safe-OS에서 프롬프트 인젝션 공격 성공률 0%와 정상 작업 보존율 95.6%를 달성했습니다. 이는 GuardAgent 및 LLaMA-Guard가 정상 작업의 최대 49.2%를 차단하는 것과 대조적입니다.
ShieldAgent (ICML 2025)는 LLM 기반 가드레일을 마르코프 논리 네트워크 기반의 확률적 규칙 회로로 대체하여, 64.7% 적은 API 호출로 에이전트 공격에 대해 90.4%의 정확도를 달성했습니다. 이것이 금융 AI 시스템의 검증 가능한 안전성에 어떤 의미를 갖는지 살펴봅니다.
AuditCopilot은 오픈 소스 LLM(Mistral-8B, Gemma, Llama-3.1)을 기업 분개 부정 탐지에 적용하여 오탐(false positive)을 942건에서 12건으로 줄였습니다. 하지만 소거 연구 결과, LLM은 독립적인 이상 탐지기가 아니라 주로 Isolation Forest 점수 위에 구축된 종합 레이어로 기능한다는 점이 밝혀졌습니다.
Anthropic의 헌법적 AI(Constitutional AI) 논문(Bai et al., 2022)은 인간의 유해성 레이블 대신 AI 생성 피드백을 사용하여 LLM이 규칙을 따르도록 훈련합니다. 이 연구 로그는 RLAIF의 비판-수정-선호도 파이프라인이 자율적인 Beancount 원장 에이전트의 쓰기 작업 안전성에 어떻게 매핑되는지, 그리고 "헌법"이 윤리 규칙 세트가 아닌 계정 과목표일 때 굿하트의 법칙(Goodharting), 보정 실패 및 이중 용도 리스크가 어떤 모습인지 살펴봅니다.