Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): 적절한 문서 구조 선택으로 GraphRAG보다 28점 높은 성능 달성

StructRAG (ICLR 2025)는 추론 전 각 쿼리를 태스크에 적합한 구조 유형(표, 그래프, 카탈로그, 알고리즘 또는 청크)으로 라우팅합니다. 이를 통해 Loong 벤치마크에서 GraphRAG보다 28점 높은 점수를 기록하고 22배 빠른 속도로 실행되며, DPO로 학습된 라우터만으로도 15점의 정확도 향상을 실현했습니다.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

동일한 사고 토큰 예산 하에서 단일 에이전트 LLM이 다중 홉 추론 시 다중 에이전트 시스템보다 우수한 성능을 보임

2026년 스탠퍼드 프리프린트 논문은 5가지 다중 에이전트 아키텍처 전반에서 사고 토큰 예산을 동일하게 맞춘 결과, 단일 에이전트 LLM이 다중 홉 추론에서 다중 에이전트 시스템과 비슷하거나 더 우수한 성능을 보인다는 사실을 발견했습니다. 이는 데이터 처리 부등식에 기반한 이론적 근거를 제공하며 금융 AI 에이전트 설계에 시사하는 바가 큽니다.

AILLMMachine LearningAutomationFinanceData ScienceMulti-Agent

M3MAD-Bench: 멀티 에이전트 토론은 도메인과 모달리티 전반에서 정말로 효과적인가?

M3MAD-Bench는 9개 모델, 5개 도메인, 시각-언어 설정을 아우르며 멀티 에이전트 토론을 스트레스 테스트합니다. 연구 결과 실패 사례의 65%가 '집단적 망상'으로 인해 발생하며, 적대적 토론은 정확도를 최대 12.8%까지 떨어뜨리고, 자기 일관성(Self-Consistency)은 일반적으로 더 적은 토큰 비용으로 토론과 대등한 정확도를 제공한다는 점을 발견했습니다.

AILLMSecurityAutomationMachine LearningTrustCompliance

AGrail: 작업 전반에 걸쳐 학습하는 LLM 에이전트를 위한 적응형 안전 가드레일

AGrail (ACL 2025)은 테스트 시간 적응(TTA)을 통해 추론 시 안전 점검을 조정하는 두 개의 LLM 협력 가드레일을 도입하여, Safe-OS에서 프롬프트 인젝션 공격 성공률 0%와 정상 작업 보존율 95.6%를 달성했습니다. 이는 GuardAgent 및 LLaMA-Guard가 정상 작업의 최대 49.2%를 차단하는 것과 대조적입니다.

AILLMMachine LearningSecurityComplianceAutomationTrustDevelopers

ShieldAgent: LLM 에이전트를 위한 검증 가능한 안전 정책 추론

ShieldAgent (ICML 2025)는 LLM 기반 가드레일을 마르코프 논리 네트워크 기반의 확률적 규칙 회로로 대체하여, 64.7% 적은 API 호출로 에이전트 공격에 대해 90.4%의 정확도를 달성했습니다. 이것이 금융 AI 시스템의 검증 가능한 안전성에 어떤 의미를 갖는지 살펴봅니다.

AIMachine LearningLLMData ScienceBeancountFinanceAutomation

Atlas: Retriever-Reader 합동 사전 학습으로 110억 개의 파라미터만으로 5,400억 개의 파라미터 LLM을 능가하다

Atlas (JMLR 2023)는 단 64개의 학습 예시만으로 Natural Questions에서 42.4%의 정확도를 달성하며, 110억 개의 파라미터로 5,400억 개의 PaLM을 3포인트 차이로 앞섰습니다. 이는 Contriever 기반 밀집 검색기와 T5 Fusion-in-Decoder 리더를 합동 사전 학습함으로써 가능했습니다. 본 분석은 검색 정확도의 한계, 587GB 인덱스 인프라 비용, 그리고 Beancount 장부 질의응답(QA) 시스템에 미치는 영향을 다룹니다.