본문으로 건너뛰기
Technology

모든 것에 대하여 Technology

8개의 기사
Technology research and software engineering topics relevant to financial AI systems

WildToolBench: 실제 환경의 도구 사용에서 LLM의 세션 정확도가 15%를 넘지 못하는 이유

WildToolBench(ICLR 2026)는 실제 사용자 행동에서 추출된 1,024개의 작업에 대해 57개의 LLM을 평가합니다. 그 결과 세션 정확도가 15%를 넘는 모델은 없었으며, 구성적 오케스트레이션, 숨겨진 의도, 지시어 전환이 세 가지 주요 실패 유형으로 나타났습니다.

Lost in the Middle: LLM의 위치 편향과 금융 AI에 미치는 영향

Liu 등이 발표한 TACL 2024 논문은 LLM이 긴 컨텍스트의 중간에 배치된 정보에 대해 성능이 최대 20포인트 하락하는 U자형 성능 저하 현상을 보여줍니다. 이는 Claude-1.3-100K를 포함한 모든 테스트 모델에서 나타나며, 금융 및 회계 애플리케이션의 RAG 파이프라인에서 검색된 구절을 배치하는 방식에 구체적인 시사점을 제공합니다.

OSWorld: 인간이 72% 성공하는 작업에서 데스크톱 AI 에이전트의 성공률은 12%에 불과함

OSWorld (NeurIPS 2024)는 Ubuntu, Windows, macOS 전반에 걸친 369개의 실제 데스크톱 작업에서 멀티모달 AI 에이전트를 벤치마킹했습니다. 그 결과, 최고 모델(12.24%)과 인간의 성과(72.36%) 사이에 60%포인트의 격차가 있음을 발견했으며, 실패의 75%는 추론 실패가 아닌 시각운동 접지(visuomotor grounding) 오류 때문인 것으로 나타났습니다.

StructRAG (ICLR 2025): 적절한 문서 구조 선택으로 GraphRAG보다 28점 높은 성능 달성

StructRAG (ICLR 2025)는 추론 전 각 쿼리를 태스크에 적합한 구조 유형(표, 그래프, 카탈로그, 알고리즘 또는 청크)으로 라우팅합니다. 이를 통해 Loong 벤치마크에서 GraphRAG보다 28점 높은 점수를 기록하고 22배 빠른 속도로 실행되며, DPO로 학습된 라우터만으로도 15점의 정확도 향상을 실현했습니다.

동일한 사고 토큰 예산 하에서 단일 에이전트 LLM이 다중 홉 추론 시 다중 에이전트 시스템보다 우수한 성능을 보임

2026년 스탠퍼드 프리프린트 논문은 5가지 다중 에이전트 아키텍처 전반에서 사고 토큰 예산을 동일하게 맞춘 결과, 단일 에이전트 LLM이 다중 홉 추론에서 다중 에이전트 시스템과 비슷하거나 더 우수한 성능을 보인다는 사실을 발견했습니다. 이는 데이터 처리 부등식에 기반한 이론적 근거를 제공하며 금융 AI 에이전트 설계에 시사하는 바가 큽니다.

Self-RAG: LLM을 위한 적응형 검색 및 자기 비판

Self-RAG (ICLR 2024 Oral)는 언어 모델이 검색 시점을 결정하고 4개의 성찰 토큰을 사용하여 결과를 직접 평가하도록 훈련합니다. PopQA에서 55.8%, 전기 부문 FactScore 80.2를 기록하며 5개 벤치마크에서 ChatGPT를 능가했습니다. 이 분석은 메커니즘, 절제 연구 결과, 재현성 한계, 그리고 Beancount 장부를 다루는 금융 AI 에이전트에 미치는 영향을 다룹니다.

AgentBench: 에이전트로서의 LLM 평가 — 금융 AI 신뢰성을 위한 교훈

AgentBench (Liu 등, ICLR 2024)는 8개의 인터랙티브 환경에서 27개의 LLM을 벤치마킹했습니다. GPT-4는 전체 점수 4.01점을 기록한 반면, 최우수 오픈소스 모델은 0.96점에 그쳤습니다. 세 가지 주요 실패 모드(지식 그래프 실패의 67.9%를 차지하는 작업 한도 초과, 데이터베이스 실패의 53.3%를 차지하는 형식 오류, 유효하지 않은 작업)는 실제 장부에서 Beancount 쓰기 에이전트를 배포할 때의 위험과 직접적으로 연관됩니다.

MemGPT: LLM 에이전트를 위한 가상 컨텍스트 관리

MemGPT는 OS 스타일의 가상 메모리 페이징을 LLM에 적용하여 작업 메모리, 회상 메모리, 아카이브 메모리의 3계층 저장소를 사용해 에이전트에게 세션 간 지속적인 회상 능력을 부여합니다. 멀티 세션 채팅 벤치마크에서 MemGPT는 GPT-4를 활용해 92.5%의 정확도를 달성했으며, 이는 32.1%의 고정 컨텍스트 베이스라인과 대조됩니다.