Mike Thrift

Marketing Manager

June 30, 2026·mike

OpenHands: AI 소프트웨어 에이전트를 위한 개방형 플랫폼과 금융 자동화에 시사하는 점

OpenHands는 MIT 라이선스 기반의 Docker 샌드박스 에이전트 플랫폼으로, CodeAct가 SWE-Bench Lite에서 26%의 성능을 기록했습니다. 이는 현재 AI 에이전트가 안정적으로 수행할 수 있는 수준을 보여주는 냉정한 지표이며, 초기 금융 분야의 실질적인 배포가 자율적인 형태보다는 명확하게 정의된 범위 내에서 이루어져야 하는 이유를 설명합니다.

open-source

automation

June 29, 2026·mike

Fin-RATE: LLM이 기간 간 및 기업 간 재무 분석에서 실패하는 방식

Fin-RATE는 2,472개의 SEC 공시에서 추출한 7,500개의 전문가 큐레이션 QA 쌍을 통해 17개의 LLM을 벤치마킹하여, 시계열 추적 시 정확도가 18.60% 급락하고 금융 특화 모델인 Fin-R1의 경우 기업 간 작업에서 54포인트 하락하는 등 한계를 드러냈습니다. 또한 검색(retrieval) 파이프라인이 백본 모델보다 더 큰 병목 현상인 것으로 나타났습니다.

llm

machine-learning

June 28, 2026·mike

FinDER: 실제 분석가 쿼리를 통해 드러난 금융 RAG의 74% 재현율 격차

FinDER는 S&P 500 10-K 공시 자료를 대상으로 5,703개의 실제 헤지펀드 분석가 쿼리를 사용하여 RAG를 벤치마킹합니다. E5-Mistral은 단 25.95%의 컨텍스트 재현율을 기록했으며, 약어가 많은 쿼리는 정밀도를 8.2포인트 떨어뜨렸습니다. 이는 더 나은 임베딩보다 쿼리 정규화가 금융 AI 파이프라인의 최우선 과제임을 시사합니다.

llm

machine-learning

June 27, 2026·mike

Lost in the Middle: LLM의 위치 편향과 금융 AI에 미치는 영향

Liu 등이 발표한 TACL 2024 논문은 LLM이 긴 컨텍스트의 중간에 배치된 정보에 대해 성능이 최대 20포인트 하락하는 U자형 성능 저하 현상을 보여줍니다. 이는 Claude-1.3-100K를 포함한 모든 테스트 모델에서 나타나며, 금융 및 회계 애플리케이션의 RAG 파이프라인에서 검색된 구절을 배치하는 방식에 구체적인 시사점을 제공합니다.

llm

machine-learning

June 26, 2026·mike

AD-LLM 벤치마크: GPT-4o, 텍스트 이상 탐지에서 제로샷 AUROC 0.93+ 달성

AD-LLM은 5개의 NLP 데이터셋을 대상으로 제로샷 탐지기, 데이터 증강 도구, 모델 선택 조언자라는 세 가지 이상 탐지 역할에서 GPT-4o와 Llama 3.1 8B를 벤치마킹합니다. GPT-4o는 제로샷에서 0.93–0.99의 AUROC를 기록했지만, LLM 기반 모델 선택은 여전히 신뢰하기 어렵다는 점을 보여주며, 이는 금융 감사 AI에 직접적인 시사점을 제공합니다.

llm

machine-learning

June 25, 2026·mike

CausalTAD: LLM 정형 데이터 이상 탐지를 위한 인과적 열 순서 지정

CausalTAD는 직렬화 전에 인과적 의존성을 고려하여 테이블 열 순서를 재정렬함으로써 LLM 기반 정형 데이터 이상 탐지 성능을 개선합니다. 혼합 유형 벤치마크에서 AnoLLM 대비 평균 AUC-ROC를 0.803에서 0.834로 높였으며, 이는 정형화된 장부 데이터의 이상 탐지에 직접적인 시사점을 제공합니다.

llm

machine-learning

June 24, 2026·mike

AnoLLM: 금융 데이터의 정형 변칙 탐지를 위한 LLM 미세 조정

AnoLLM(ICLR 2025)은 정형 변칙 탐지를 LLM 밀도 추정으로 재구성합니다. 즉, 정상 행에 대해 미세 조정을 수행하고 음의 로그 가능도로 점수를 산출합니다. 이 방식은 혼합형 사기 데이터셋에서 고전적인 방법들을 능가하지만, 순수 수치형 데이터에서는 이점이 없으며 Beancount 장부 항목의 변칙을 탐지하는 데 실질적인 시사점을 제공합니다.

llm

machine-learning

June 23, 2026·mike

Beancount DSL 생성에서 LLM 점수 2.3%: LLMFinLiteracy 벤치마크

LLMFinLiteracy 벤치마크에 따르면 5개의 약 7B 규모 공개 가중치 모델이 완전히 정확한 Beancount 트랜잭션을 생성할 확률은 2.3%에 불과했습니다. 실패 원인은 구문이 아닌 회계적 추론에 집중되어 있으며, 이는 신뢰할 수 있는 라이트백(write-back) 에이전트를 위해 루프 내 컴파일러(compiler-in-the-loop) 피드백이 핵심적인 요소임을 시사합니다.

llm

beancount

plain-text-accounting

June 22, 2026·mike

TableMaster: LLM을 활용한 표 이해를 위한 적응형 추론

TableMaster는 집중 표(table-of-focus) 추출, 의미론적 구어화, 텍스트와 기호 추론 간의 적응형 전환을 결합하여 GPT-4o-mini 기준 WikiTQ에서 Chain-of-Table보다 13점 높은 78.13%를 달성한 프롬프팅 전용 파이프라인입니다. 이 아키텍처가 Beancount와 같은 재무 장부를 다루는 AI 에이전트에 어떤 의미를 갖는지 살펴봅니다.

llm

machine-learning

June 21, 2026·mike

LLM을 활용한 제로샷 이상 탐지: GPT-4의 정형 데이터 성능 분석

GPT-4는 파인튜닝 없이 ODDS 벤치마크에서 평균 AUROC 74.1을 기록하며 기존 ECOD 베이스라인(75.5)에 근접했으나, 다차원 이상치 및 고분산 데이터셋에서는 한계를 보였습니다. 자동화된 Beancount 장부 감사를 위한 제로샷 LLM 이상 탐지의 비판적 검토 및 시사점을 다룹니다.

llm

fraud-detection

June 20, 2026·mike

DocFinQA: 전체 SEC 공시 자료를 활용한 롱 컨텍스트 금융 추론

DocFinQA는 FinQA의 선별된 700단어 구절을 123,000단어 분량의 전체 SEC 공시 자료로 대체하여, 컨텍스트를 175배 확장했을 때 긴 문서에 대한 GPT-4의 정확도가 거의 절반으로 떨어짐을 보여줍니다. 검색 파이프라인은 HR@3 기준 45%의 확률로 올바른 청크를 찾지 못하며, 롱 컨텍스트 모델 또한 이를 대체하지 못합니다.

llm

machine-learning

June 19, 2026·mike

TheAgentCompany: 실제 기업 업무에서의 LLM 에이전트 벤치마킹

TheAgentCompany는 GitLab, OwnCloud, RocketChat이 실행되는 가상 인트라넷 환경에서 175개의 실제 업무 작업을 테스트합니다. 최고 성능 모델(Gemini-2.5-Pro)조차 작업당 4달러의 비용으로 30%의 성공률만 기록하며, 자율 에이전트가 회계 및 재무 워크플로우에 실질적으로 도입되기에는 아직 갈 길이 멀다는 점을 시사합니다.

llm

automation

87개 중 13–24개 표시

이전2 / 8다음