StructRAG (ICLR 2025)는 추론 전 각 쿼리를 태스크에 적합한 구조 유형(표, 그래프, 카탈로그, 알고리즘 또는 청크)으로 라우팅합니다. 이를 통해 Loong 벤치마크에서 GraphRAG보다 28점 높은 점수를 기록하고 22배 빠른 속도로 실행되며, DPO로 학습된 라우터만으로도 15점의 정확도 향상을 실현했습니다.
2026년 스탠퍼드 프리프린트 논문은 5가지 다중 에이전트 아키텍처 전반에서 사고 토큰 예산을 동일하게 맞춘 결과, 단일 에이전트 LLM이 다중 홉 추론에서 다중 에이전트 시스템과 비슷하거나 더 우수한 성능을 보인다는 사실을 발견했습니다. 이는 데이터 처리 부등식에 기반한 이론적 근거를 제공하며 금융 AI 에이전트 설계에 시사하는 바가 큽니다.
M3MAD-Bench는 9개 모델, 5개 도메인, 시각-언어 설정을 아우르며 멀티 에이전트 토론을 스트레스 테스트합니다. 연구 결과 실패 사례의 65%가 '집단적 망상'으로 인해 발생하며, 적대적 토론은 정확도를 최대 12.8%까지 떨어뜨 리고, 자기 일관성(Self-Consistency)은 일반적으로 더 적은 토큰 비용으로 토론과 대등한 정확도를 제공한다는 점을 발견했습니다.
AGrail (ACL 2025)은 테스트 시간 적응(TTA)을 통해 추론 시 안전 점검을 조정하는 두 개의 LLM 협력 가드레일을 도입하여, Safe-OS에서 프롬프트 인젝션 공격 성공률 0%와 정상 작업 보존율 95.6%를 달성했습니다. 이는 GuardAgent 및 LLaMA-Guard가 정상 작업의 최대 49.2%를 차단하는 것과 대조적입니다.
ShieldAgent (ICML 2025)는 LLM 기반 가드레일을 마르코프 논리 네트워크 기반의 확률적 규칙 회로로 대체하여, 64.7% 적은 API 호출로 에이전트 공격에 대해 90.4%의 정확도를 달성했습니다. 이것이 금융 AI 시스템의 검증 가능한 안전성에 어떤 의미를 갖는지 살펴봅니다.
Atlas (JMLR 2023)는 단 64개의 학습 예시만으로 Natural Questions에서 42.4%의 정확도를 달성하며, 110억 개의 파라미터로 5,400억 개의 PaLM을 3포인트 차이로 앞섰습니다. 이는 Contriever 기반 밀집 검색기와 T5 Fusion-in-Decoder 리더를 합동 사전 학습함으로써 가능했습니다. 본 분석은 검색 정확도의 한계, 587GB 인덱스 인프라 비용, 그리고 Beancount 장부 질의응답(QA) 시스템에 미치는 영향을 다룹니다.
Izacard와 Grave의 FiD 아키텍처는 검색된 구절을 독립적으로 인코딩한 후 디코더에서 융합하여, NQ 및 TriviaQA에서 RAG-Sequence보다 4~11점 높은 성능을 보입니다. 이 게시물은 해당 설계와 여러 거래 간의 다중 항목 합성이 일반적인 Beancount 원장 QA에 대한 시사점을 살펴봅니다.
GuardAgent(ICML 2025)는 대상 에이전트와 환경 사이에 별도의 LLM 에이전트를 배치하여, Python 코드를 생성하고 실행함으로써 제안된 모든 동작을 검증합니다. 이를 통해 프롬프트 내장형 안전 규칙이 81%의 정확도와 29~71%의 작업 실패율을 보이는 것과 대조적으로, 100%의 작업 완료율을 유지하면서 98.7%의 정책 준수 정확도를 달성합니다.
산술 능력에서 14.8점의 정확도 향상을 보고한 Du 등의 ICML 2024 다중 에이전트 토론 논문을 분석하고, 동일한 예산의 단일 에이전트 성능과 비교한 2025년 반박 연구, 그리고 토론 실패의 65%를 차지하는 '집단적 망상'이 AI 기반 장부 기입에 미치는 위험성을 살펴봅니다.