본문으로 건너뛰기
Trust

모든 것에 대하여 Trust

8개의 기사
Reliability, calibration, and hallucination in financial AI systems

LLM의 신뢰도와 캘리브레이션: 연구 결과가 실제로 보여주는 것에 대한 서베이

화이트박스 로짓 접근법, 일관성 기반 SelfCheckGPT, 의미론적 엔트로피 등 LLM 신뢰도 추정 및 캘리브레이션 방법에 대한 체계적인 서베이에 따르면, GPT-4의 언어화된 신뢰도 점수는 AUROC 약 62.7%에 불과하여 우연보다 약간 높은 수준인 것으로 나타났습니다. 이는 금융 및 회계 분야에서 불확실성을 인지하는 에이전트를 배포할 때 직접적인 시사점을 제공합니다.

LLM 에이전트를 위한 불확실성 기반 위임: 소형 모델에서 대형 모델로 전환하는 시점

ReDAct는 기본적으로 소형 모델을 실행하고 토큰 수준의 퍼플렉시티(perplexity)가 불확실성을 나타낼 때만 고가의 모델로 에스컬레이션합니다. 이를 통해 GPT-5.2 단독 사용 대비 정확도는 유지하거나 상회하면서도 64%의 비용을 절감하며, 이는 Beancount 거래 분류 에이전트에 직접 적용 가능한 패턴입니다.

LLM 에이전트를 위한 검증 가능한 안전한 도구 사용: STPA와 MCP의 만남

CMU 및 NC State 연구진은 시스템 이론적 공정 분석(STPA)과 기능이 강화된 모델 컨텍스트 프로토콜을 사용하여 LLM 에이전트 도구 사용에 대한 형식적 안전 사양을 도출할 것을 제안하며, 캘린더 일정 관리 사례 연구를 통해 안전하지 않은 흐름이 없음을 입증하는 Alloy 기반 검증을 선보입니다.

AGrail: 작업 전반에 걸쳐 학습하는 LLM 에이전트를 위한 적응형 안전 가드레일

AGrail (ACL 2025)은 테스트 시간 적응(TTA)을 통해 추론 시 안전 점검을 조정하는 두 개의 LLM 협력 가드레일을 도입하여, Safe-OS에서 프롬프트 인젝션 공격 성공률 0%와 정상 작업 보존율 95.6%를 달성했습니다. 이는 GuardAgent 및 LLaMA-Guard가 정상 작업의 최대 49.2%를 차단하는 것과 대조적입니다.

ShieldAgent: LLM 에이전트를 위한 검증 가능한 안전 정책 추론

ShieldAgent (ICML 2025)는 LLM 기반 가드레일을 마르코프 논리 네트워크 기반의 확률적 규칙 회로로 대체하여, 64.7% 적은 API 호출로 에이전트 공격에 대해 90.4%의 정확도를 달성했습니다. 이것이 금융 AI 시스템의 검증 가능한 안전성에 어떤 의미를 갖는지 살펴봅니다.

GuardAgent: 코드 실행을 통한 LLM 에이전트의 결정론적 안전 강제

GuardAgent(ICML 2025)는 대상 에이전트와 환경 사이에 별도의 LLM 에이전트를 배치하여, Python 코드를 생성하고 실행함으로써 제안된 모든 동작을 검증합니다. 이를 통해 프롬프트 내장형 안전 규칙이 81%의 정확도와 29~71%의 작업 실패율을 보이는 것과 대조적으로, 100%의 작업 완료율을 유지하면서 98.7%의 정책 준수 정확도를 달성합니다.

LLM은 아직 추론을 자가 수정할 수 없다 — ICLR 2024 연구 결과 및 금융 AI에 미치는 영향

Huang 등의 연구(ICLR 2024)는 외부 피드백 없이 LLM에게 스스로의 추론을 검토하게 하면 일관되게 정확도가 떨어진다는 것을 보여줍니다. GSM8K에서 GPT-4는 95.5%에서 91.5%로 하락했습니다. 이 결과가 신뢰할 수 있는 Beancount 분개장 입력 에이전트를 설계하는 데 어떤 의미를 갖는지 설명합니다.

PHANTOM (NeurIPS 2025): 금융 문서에서의 LLM 환각 탐지 측정

PHANTOM(NeurIPS 2025)은 최대 30,000 토큰의 문맥 길이에 걸쳐 실제 SEC 공시 서류를 대상으로 LLM 환각 탐지를 측정하는 최초의 벤치마크입니다. Qwen3-30B-A3B-Thinking이 F1=0.882로 선두를 달리고 있으며, 7B 모델은 무작위 추측에 가까운 점수를 기록했습니다. 이는 자율 회계 에이전트에게 직접적인 시사점을 제공합니다.