본문으로 건너뛰기
Automation

모든 것에 대하여 Automation

57개의 기사
Automation techniques and tools for financial data processing workflows

LLM 에이전트가 CFO가 될 수 있을까? EnterpriseArena의 132개월 시뮬레이션이 보여주는 거대한 격차

EnterpriseArena는 생존율, 최종 가치, 결산율을 추적하며 11개의 LLM을 대상으로 132개월간의 CFO 시뮬레이션을 수행했습니다. 오직 Qwen3.5-9B만이 80%의 실행에서 생존했으며, GPT-5.4와 DeepSeek-V3.1은 0%를 기록했습니다. 인간 전문가는 100% 생존율과 최종 가치 5배를 달성했습니다. 결정적인 병목 현상은 LLM이 80%의 경우 장부 대조를 건너뛰고 오래된 재무 상태를 바탕으로 행동한다는 점이었습니다.

WildToolBench: 실제 환경의 도구 사용에서 LLM의 세션 정확도가 15%를 넘지 못하는 이유

WildToolBench(ICLR 2026)는 실제 사용자 행동에서 추출된 1,024개의 작업에 대해 57개의 LLM을 평가합니다. 그 결과 세션 정확도가 15%를 넘는 모델은 없었으며, 구성적 오케스트레이션, 숨겨진 의도, 지시어 전환이 세 가지 주요 실패 유형으로 나타났습니다.

JSONSchemaBench: 실제 스키마 복잡성으로 인한 LLM 구조적 출력 보장 실패

JSONSchemaBench는 9,558개의 실제 JSON 스키마를 6개의 제약 조건 기반 디코딩 프레임워크에서 테스트했습니다. 그 결과, 스키마 복잡성으로 인해 단순 스키마에서의 86% 커버리지가 복잡한 스키마에서는 3%로 급감했으며, XGrammar는 38개의 비준수 출력을 조용히 내보냈고, 어떤 프레임워크도 45개의 JSON 스키마 기능 카테고리를 모두 지원하지 못했습니다.

FinMCP-Bench: MCP 기반 실제 금융 도구 사용을 위한 LLM 에이전트 벤치마킹

FinMCP-Bench는 65개의 MCP 서버를 기반으로 하는 613개의 실제 금융 도구 사용 작업에서 6개의 LLM 모델을 평가합니다. 가장 우수한 모델도 멀티턴 작업에서 3.08%의 완전 일치(exact match) 점수를 기록하여, 단일 도구 사용 대비 멀티턴 시나리오에서 성능이 20배 하락함을 보여줍니다.

FinTrace: 금융 작업을 위한 LLM 도구 호출의 궤적 수준 평가

FinTrace는 9가지 지표를 통해 800개의 전문가 주석이 달린 금융 작업 궤적에서 13개의 LLM을 벤치마킹했습니다. 그 결과, 프런티어 모델들은 강력한 도구 선택 능력(F1 ~0.9)을 달성했지만, 에이전트가 도구의 반환 값을 추론하는 단계인 '정보 활용' 점수에서는 5점 만점에 3.23점에 그쳤습니다.

FinToolBench: 실제 금융 도구 사용에 대한 LLM 에이전트 평가

FinToolBench는 760개의 실시간 금융 API 도구와 295개의 실행 가능한 쿼리를 결합하여 실제 금융 작업에 대한 LLM 에이전트를 벤치마킹합니다. GPT-4o의 보수적인 22.7% 호출률이 Qwen3-8B의 공격적인 87.1% TIR보다 높은 답변 품질(CSS 0.670)을 제공하는 반면, 의도 불일치(intent mismatch)는 모든 테스트 모델에서 50%를 초과하는 것으로 나타났습니다.

OmniEval: 금융 도메인을 위한 전방위적 RAG 평가 벤치마크

OmniEval(EMNLP 2025)은 11,400개의 자동 생성된 테스트 케이스를 사용하여 5가지 작업 유형 × 16가지 금융 주제에 걸쳐 RAG 시스템을 벤치마킹합니다. 최고의 시스템조차 수치 정확도가 36%에 불과하며, 이는 구조화된 금융 원장에 기록하기 전에 RAG 파이프라인에 검증 계층이 필요하다는 구체적인 증거입니다.

중간에서 찾기: 위치적 어텐션 편향 보정을 통한 롱 컨텍스트 RAG 개선

추가 학습이 필요 없는 추론 시점 보정 기술은 LLM 어텐션 가중치에서 위치적 편향을 제거하여, 검색된 문서가 컨텍스트 중간에 위치할 때 RAG 정확도를 최대 15% 포인트까지 회복시킵니다. 금융 특화 에이전트 파이프라인에 미치는 영향을 살펴봅니다.

LLM 에이전트를 위한 불확실성 기반 위임: 소형 모델에서 대형 모델로 전환하는 시점

ReDAct는 기본적으로 소형 모델을 실행하고 토큰 수준의 퍼플렉시티(perplexity)가 불확실성을 나타낼 때만 고가의 모델로 에스컬레이션합니다. 이를 통해 GPT-5.2 단독 사용 대비 정확도는 유지하거나 상회하면서도 64%의 비용을 절감하며, 이는 Beancount 거래 분류 에이전트에 직접 적용 가능한 패턴입니다.

OpenHands: AI 소프트웨어 에이전트를 위한 개방형 플랫폼과 금융 자동화에 시사하는 점

OpenHands는 MIT 라이선스 기반의 Docker 샌드박스 에이전트 플랫폼으로, CodeAct가 SWE-Bench Lite에서 26%의 성능을 기록했습니다. 이는 현재 AI 에이전트가 안정적으로 수행할 수 있는 수준을 보여주는 냉정한 지표이며, 초기 금융 분야의 실질적인 배포가 자율적인 형태보다는 명확하게 정의된 범위 내에서 이루어져야 하는 이유를 설명합니다.