본문으로 건너뛰기

Automation

모든 것에 대하여 Automation

57개의 기사

Automation techniques and tools for financial data processing workflows

모든 게시물로 돌아가기 모든 태그 보기

AILLMAutomationReconciliationBeancountCash FlowFinancial ManagementForecasting

LLM 에이전트가 CFO가 될 수 있을까? EnterpriseArena의 132개월 시뮬레이션이 보여주는 거대한 격차

EnterpriseArena는 생존율, 최종 가치, 결산율을 추적하며 11개의 LLM을 대상으로 132개월간의 CFO 시뮬레이션을 수행했습니다. 오직 Qwen3.5-9B만이 80%의 실행에서 생존했으며, GPT-5.4와 DeepSeek-V3.1은 0%를 기록했습니다. 인간 전문가는 100% 생존율과 최종 가치 5배를 달성했습니다. 결정적인 병목 현상은 LLM이 80%의 경우 장부 대조를 건너뛰고 오래된 재무 상태를 바탕으로 행동한다는 점이었습니다.

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: 실제 환경의 도구 사용에서 LLM의 세션 정확도가 15%를 넘지 못하는 이유

WildToolBench(ICLR 2026)는 실제 사용자 행동에서 추출된 1,024개의 작업에 대해 57개의 LLM을 평가합니다. 그 결과 세션 정확도가 15%를 넘는 모델은 없었으며, 구성적 오케스트레이션, 숨겨진 의도, 지시어 전환이 세 가지 주요 실패 유형으로 나타났습니다.

LLMAIMachine LearningAutomationBeancountPerformance

JSONSchemaBench: 실제 스키마 복잡성으로 인한 LLM 구조적 출력 보장 실패

JSONSchemaBench는 9,558개의 실제 JSON 스키마를 6개의 제약 조건 기반 디코딩 프레임워크에서 테스트했습니다. 그 결과, 스키마 복잡성으로 인해 단순 스키마에서의 86% 커버리지가 복잡한 스키마에서는 3%로 급감했으며, XGrammar는 38개의 비준수 출력을 조용히 내보냈고, 어떤 프레임워크도 45개의 JSON 스키마 기능 카테고리를 모두 지원하지 못했습니다.

AILLMAutomationBeancountFintechMachine LearningReconciliation

FinMCP-Bench: MCP 기반 실제 금융 도구 사용을 위한 LLM 에이전트 벤치마킹

FinMCP-Bench는 65개의 MCP 서버를 기반으로 하는 613개의 실제 금융 도구 사용 작업에서 6개의 LLM 모델을 평가합니다. 가장 우수한 모델도 멀티턴 작업에서 3.08%의 완전 일치(exact match) 점수를 기록하여, 단일 도구 사용 대비 멀티턴 시나리오에서 성능이 20배 하락함을 보여줍니다.

LLMAIFinanceFintechAutomationBeancountMachine Learning

FinTrace: 금융 작업을 위한 LLM 도구 호출의 궤적 수준 평가

FinTrace는 9가지 지표를 통해 800개의 전문가 주석이 달린 금융 작업 궤적에서 13개의 LLM을 벤치마킹했습니다. 그 결과, 프런티어 모델들은 강력한 도구 선택 능력(F1 ~0.9)을 달성했지만, 에이전트가 도구의 반환 값을 추론하는 단계인 '정보 활용' 점수에서는 5점 만점에 3.23점에 그쳤습니다.

AILLMAutomationMachine LearningFintechBeancountComplianceData Science

FinToolBench: 실제 금융 도구 사용에 대한 LLM 에이전트 평가

FinToolBench는 760개의 실시간 금융 API 도구와 295개의 실행 가능한 쿼리를 결합하여 실제 금융 작업에 대한 LLM 에이전트를 벤치마킹합니다. GPT-4o의 보수적인 22.7% 호출률이 Qwen3-8B의 공격적인 87.1% TIR보다 높은 답변 품질(CSS 0.670)을 제공하는 반면, 의도 불일치(intent mismatch)는 모든 테스트 모델에서 50%를 초과하는 것으로 나타났습니다.

AIMachine LearningLLMFinanceData ScienceBeancountAutomation

OmniEval: 금융 도메인을 위한 전방위적 RAG 평가 벤치마크

OmniEval(EMNLP 2025)은 11,400개의 자동 생성된 테스트 케이스를 사용하여 5가지 작업 유형 × 16가지 금융 주제에 걸쳐 RAG 시스템을 벤치마킹합니다. 최고의 시스템조차 수치 정확도가 36%에 불과하며, 이는 구조화된 금융 원장에 기록하기 전에 RAG 파이프라인에 검증 계층이 필요하다는 구체적인 증거입니다.

AILLMMachine LearningData ScienceAutomationBeancountReconciliation

중간에서 찾기: 위치적 어텐션 편향 보정을 통한 롱 컨텍스트 RAG 개선

추가 학습이 필요 없는 추론 시점 보정 기술은 LLM 어텐션 가중치에서 위치적 편향을 제거하여, 검색된 문서가 컨텍스트 중간에 위치할 때 RAG 정확도를 최대 15% 포인트까지 회복시킵니다. 금융 특화 에이전트 파이프라인에 미치는 영향을 살펴봅니다.

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

LLM 에이전트를 위한 불확실성 기반 위임: 소형 모델에서 대형 모델로 전환하는 시점

ReDAct는 기본적으로 소형 모델을 실행하고 토큰 수준의 퍼플렉시티(perplexity)가 불확실성을 나타낼 때만 고가의 모델로 에스컬레이션합니다. 이를 통해 GPT-5.2 단독 사용 대비 정확도는 유지하거나 상회하면서도 64%의 비용을 절감하며, 이는 Beancount 거래 분류 에이전트에 직접 적용 가능한 패턴입니다.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: AI 소프트웨어 에이전트를 위한 개방형 플랫폼과 금융 자동화에 시사하는 점

OpenHands는 MIT 라이선스 기반의 Docker 샌드박스 에이전트 플랫폼으로, CodeAct가 SWE-Bench Lite에서 26%의 성능을 기록했습니다. 이는 현재 AI 에이전트가 안정적으로 수행할 수 있는 수준을 보여주는 냉정한 지표이며, 초기 금융 분야의 실질적인 배포가 자율적인 형태보다는 명확하게 정의된 범위 내에서 이루어져야 하는 이유를 설명합니다.

Beancount.io 시작하기

오픈 소스 복식부기 시스템으로 자산을 관리하세요. 오늘 바로 원장 작성을 시작해 보세요.

무료로 시작하기 요금제 보기

© 2019 - 2026 Beancount.io

App Store에서 다운로드

Google Play에서 다운로드

투명한 설계 • 버전 관리 지원 • AI 기반