Mike Thrift

Marketing Manager

June 6, 2026·mike

BIRD 벤치마크: LLM Text-to-SQL의 실제 데이터베이스 격차

BIRD 벤치마크(NeurIPS 2023)는 95개의 실제 데이터베이스를 대상으로 LLM을 테스트합니다. GPT-4는 도메인 힌트가 있는 경우 54.89%, 없는 경우 34.88%의 실행 정확도만을 기록하며 20포인트의 격차를 보였습니다. 이는 Beancount를 위한 자연어 BQL 인터페이스가 해결해야 할 과제를 직접적으로 보여줍니다.

beancount

llm

June 5, 2026·mike

LLM 에이전트를 위한 검증 가능한 안전한 도구 사용: STPA와 MCP의 만남

CMU 및 NC State 연구진은 시스템 이론적 공정 분석(STPA)과 기능이 강화된 모델 컨텍스트 프로토콜을 사용하여 LLM 에이전트 도구 사용에 대한 형식적 안전 사양을 도출할 것을 제안하며, 캘린더 일정 관리 사례 연구를 통해 안전하지 않은 흐름이 없음을 입증하는 Alloy 기반 검증을 선보입니다.

llm

security

June 4, 2026·mike

GraphRAG: 로컬에서 글로벌 쿼리 중심 요약까지

Microsoft의 GraphRAG는 텍스트 코퍼스에 대해 Leiden 분할 엔티티 그래프를 구축하고 커뮤니티 요약을 사전 계산하여 표준 벡터 RAG가 처리할 수 없는 글로벌 의미 파악 질문에 답합니다. 하지만 2025년 편향 감사에 따르면, LLM 판사 평가의 위치 및 길이 왜곡을 수정한 후에는 72~83%였던 승률이 급락하는 것으로 나타났습니다.

llm

machine-learning

June 3, 2026·mike

FinAuditing: 실제 SEC XBRL 감사 작업에서 LLM의 점수가 14% 미만을 기록함

FinAuditing은 1,102개의 실제 SEC XBRL 공시 사례를 대상으로 13개의 LLM을 제로샷(zero-shot)으로 테스트했습니다. 최고 점수는 재무 수학 검증에서 13.86%, 개념 검색에서 12.42%로 나타났으며, 이는 외부 도구 없이 AI 회계 도구가 자동화할 수 있는 신뢰 범위의 한계를 직접적으로 보여줍니다.

llm

financial-reporting

June 2, 2026·mike

InvestorBench: 금융 거래 결정에서의 LLM 에이전트 벤치마킹

InvestorBench (ACL 2025)는 QA 정확도가 아닌 누적 수익률과 샤프 지수를 사용하여 주식, 암호화폐, ETF 거래 백테스트를 통해 13개의 LLM 백본을 테스트합니다. Qwen2.5-72B는 주식 리더보드에서 46.15%의 누적 수익률(CR)로 1위를 차지했습니다. 금융 전문 미세 조정 모델은 주식에서 오히려 역효과를 냈으며, 모델 크기가 도메인 미세 조정보다 성능을 더 확실하게 예측하는 것으로 나타났습니다.

llm

finance

June 1, 2026·mike

StructRAG (ICLR 2025): 적절한 문서 구조 선택으로 GraphRAG보다 28점 높은 성능 달성

StructRAG (ICLR 2025)는 추론 전 각 쿼리를 태스크에 적합한 구조 유형(표, 그래프, 카탈로그, 알고리즘 또는 청크)으로 라우팅합니다. 이를 통해 Loong 벤치마크에서 GraphRAG보다 28점 높은 점수를 기록하고 22배 빠른 속도로 실행되며, DPO로 학습된 라우터만으로도 15점의 정확도 향상을 실현했습니다.

llm

machine-learning

May 31, 2026·mike

동일한 사고 토큰 예산 하에서 단일 에이전트 LLM이 다중 홉 추론 시 다중 에이전트 시스템보다 우수한 성능을 보임

2026년 스탠퍼드 프리프린트 논문은 5가지 다중 에이전트 아키텍처 전반에서 사고 토큰 예산을 동일하게 맞춘 결과, 단일 에이전트 LLM이 다중 홉 추론에서 다중 에이전트 시스템과 비슷하거나 더 우수한 성능을 보인다는 사실을 발견했습니다. 이는 데이터 처리 부등식에 기반한 이론적 근거를 제공하며 금융 AI 에이전트 설계에 시사하는 바가 큽니다.

llm

machine-learning

May 30, 2026·mike

M3MAD-Bench: 멀티 에이전트 토론은 도메인과 모달리티 전반에서 정말로 효과적인가?

M3MAD-Bench는 9개 모델, 5개 도메인, 시각-언어 설정을 아우르며 멀티 에이전트 토론을 스트레스 테스트합니다. 연구 결과 실패 사례의 65%가 '집단적 망상'으로 인해 발생하며, 적대적 토론은 정확도를 최대 12.8%까지 떨어뜨리고, 자기 일관성(Self-Consistency)은 일반적으로 더 적은 토큰 비용으로 토론과 대등한 정확도를 제공한다는 점을 발견했습니다.

llm

machine-learning

May 29, 2026·mike

AGrail: 작업 전반에 걸쳐 학습하는 LLM 에이전트를 위한 적응형 안전 가드레일

AGrail (ACL 2025)은 테스트 시간 적응(TTA)을 통해 추론 시 안전 점검을 조정하는 두 개의 LLM 협력 가드레일을 도입하여, Safe-OS에서 프롬프트 인젝션 공격 성공률 0%와 정상 작업 보존율 95.6%를 달성했습니다. 이는 GuardAgent 및 LLaMA-Guard가 정상 작업의 최대 49.2%를 차단하는 것과 대조적입니다.

llm

security

May 28, 2026·mike

ShieldAgent: LLM 에이전트를 위한 검증 가능한 안전 정책 추론

ShieldAgent (ICML 2025)는 LLM 기반 가드레일을 마르코프 논리 네트워크 기반의 확률적 규칙 회로로 대체하여, 64.7% 적은 API 호출로 에이전트 공격에 대해 90.4%의 정확도를 달성했습니다. 이것이 금융 AI 시스템의 검증 가능한 안전성에 어떤 의미를 갖는지 살펴봅니다.

llm

machine-learning

May 27, 2026·mike

Atlas: Retriever-Reader 합동 사전 학습으로 110억 개의 파라미터만으로 5,400억 개의 파라미터 LLM을 능가하다

Atlas (JMLR 2023)는 단 64개의 학습 예시만으로 Natural Questions에서 42.4%의 정확도를 달성하며, 110억 개의 파라미터로 5,400억 개의 PaLM을 3포인트 차이로 앞섰습니다. 이는 Contriever 기반 밀집 검색기와 T5 Fusion-in-Decoder 리더를 합동 사전 학습함으로써 가능했습니다. 본 분석은 검색 정확도의 한계, 587GB 인덱스 인프라 비용, 그리고 Beancount 장부 질의응답(QA) 시스템에 미치는 영향을 다룹니다.

machine-learning

llm

May 26, 2026·mike

Fusion-in-Decoder: 다중 구절 검색이 생성형 QA를 개선하는 방법

Izacard와 Grave의 FiD 아키텍처는 검색된 구절을 독립적으로 인코딩한 후 디코더에서 융합하여, NQ 및 TriviaQA에서 RAG-Sequence보다 4~11점 높은 성능을 보입니다. 이 게시물은 해당 설계와 여러 거래 간의 다중 항목 합성이 일반적인 Beancount 원장 QA에 대한 시사점을 살펴봅니다.

machine-learning

llm

87개 중 37–48개 표시

이전4 / 8다음