본문으로 건너뛰기
Transaction Validation

모든 것에 대하여 Transaction Validation

4개의 기사
Validating and verifying financial transactions using language model agents

Beancount DSL 생성에서 LLM 점수 2.3%: LLMFinLiteracy 벤치마크

LLMFinLiteracy 벤치마크에 따르면 5개의 약 7B 규모 공개 가중치 모델이 완전히 정확한 Beancount 트랜잭션을 생성할 확률은 2.3%에 불과했습니다. 실패 원인은 구문이 아닌 회계적 추론에 집중되어 있으며, 이는 신뢰할 수 있는 라이트백(write-back) 에이전트를 위해 루프 내 컴파일러(compiler-in-the-loop) 피드백이 핵심적인 요소임을 시사합니다.

GuardAgent: 코드 실행을 통한 LLM 에이전트의 결정론적 안전 강제

GuardAgent(ICML 2025)는 대상 에이전트와 환경 사이에 별도의 LLM 에이전트를 배치하여, Python 코드를 생성하고 실행함으로써 제안된 모든 동작을 검증합니다. 이를 통해 프롬프트 내장형 안전 규칙이 81%의 정확도와 29~71%의 작업 실패율을 보이는 것과 대조적으로, 100%의 작업 완료율을 유지하면서 98.7%의 정책 준수 정확도를 달성합니다.

다중 에이전트 LLM 토론: 실질적인 정확도 향상, 제어되지 않은 연산 비용, 그리고 집단적 망상

산술 능력에서 14.8점의 정확도 향상을 보고한 Du 등의 ICML 2024 다중 에이전트 토론 논문을 분석하고, 동일한 예산의 단일 에이전트 성능과 비교한 2025년 반박 연구, 그리고 토론 실패의 65%를 차지하는 '집단적 망상'이 AI 기반 장부 기입에 미치는 위험성을 살펴봅니다.

CRITIC: LLM 자기 수정에 외부 도구 피드백이 필요한 이유

CRITIC(ICLR 2024)은 외부 도구 신호를 바탕으로 LLM 수정을 수행하여 오픈 도메인 QA에서 7.7 F1 점수 향상과 79.2%의 유해성 감소를 달성했습니다. 이는 Beancount 금융 에이전트의 기록 안전성(write-back safety)에 직접 적용할 수 있는 '검증 후 수정' 루프입니다.