Mike Thrift

Marketing Manager

May 13, 2026·mike

FinQA: 재무 보고서의 AI 수치 추론 능력을 측정하는 벤치마크

FinQA(EMNLP 2021)는 다단계 산술 프로그램이 필요한 S&P 500 실적 보고서에서 8,281개의 질의응답 쌍을 구축했습니다. 발표 당시 신경망 모델은 61%를 기록한 반면 인간 전문가는 91%를 기록했습니다. 3단계 이상의 프로그램에서는 정확도가 22%로 급락합니다. 도메인 상수, 교차 모달리티 근거 제시, 체인 길이 등 실패 모드는 오늘날 Beancount 에이전트가 직면한 과제와 직접적으로 연결됩니다.

machine-learning

llm

May 12, 2026·mike

FinanceBench: 왜 벡터 저장소 RAG가 실제 금융 문서에서 실패하는가

FinanceBench는 실제 SEC 공시를 바탕으로 한 10,231개의 질문을 통해 16가지 AI 구성을 평가합니다. 공유 벡터 저장소 RAG는 정답률이 19%에 불과하며, 오라클 패시지를 사용한 GPT-4-Turbo조차 85% 정확도에 그쳤습니다. 이는 기업용 금융 AI의 핵심 제약 사항이 검색이 아닌 수치 추론임을 보여줍니다.

llm

machine-learning

May 11, 2026·mike

DSPy: 취약한 프롬프트 엔지니어링을 컴파일된 LLM 파이프라인으로 대체하기

DSPy는 수작업으로 작성된 프롬프트 문자열을 선언적 시그니처와 메트릭 기반 컴파일러로 대체합니다. 이를 통해 GSM8K 수학 추론에서 Llama2-13b의 성능을 9.4%에서 46.9%로 끌어올렸으며, 운영 환경의 금융 AI 파이프라인을 위한 더 유지보수가 용이한 경로를 제공합니다.

llm

machine-learning

May 10, 2026·mike

LATS: Language Agent Tree Search — 추론, 행동, 계획을 하나의 프레임워크로 통합

LATS(Language Agent Tree Search, ICML 2024)는 ReAct, Tree of Thoughts, Reflexion을 단일 MCTS 프레임워크로 통합하여 GPT-4와 함께 HumanEval에서 92.7%의 pass@1을 달성했습니다. Git 기반의 Beancount 장부의 경우, 운영 환경에서 LATS를 제한하는 상태 복원 요구 사항을 아주 쉽게 충족할 수 있습니다.

llm

machine-learning

May 9, 2026·mike

Self-RAG: LLM을 위한 적응형 검색 및 자기 비판

Self-RAG (ICLR 2024 Oral)는 언어 모델이 검색 시점을 결정하고 4개의 성찰 토큰을 사용하여 결과를 직접 평가하도록 훈련합니다. PopQA에서 55.8%, 전기 부문 FactScore 80.2를 기록하며 5개 벤치마크에서 ChatGPT를 능가했습니다. 이 분석은 메커니즘, 절제 연구 결과, 재현성 한계, 그리고 Beancount 장부를 다루는 금융 AI 에이전트에 미치는 영향을 다룹니다.

machine-learning

llm

May 8, 2026·mike

Voyager: 평생 지속되는 AI 에이전트 학습의 기초로서의 스킬 라이브러리

NVIDIA와 Caltech의 GPT-4 기반 Minecraft 에이전트인 Voyager는 영구적인 코드 스킬 라이브러리가 미세 조정 없이도 진정한 평생 학습을 가능하게 한다는 점을 보여주며, 기존의 최신 기술보다 3.3배 더 많은 아이템을 발견했습니다. 이 패턴은 장기적인 Beancount 원장 자동화에 직접적으로 적용될 수 있지만, 재무적 정확성을 위해서는 게임 샌드박스에서는 필요하지 않았던 스테이징 레이어가 필요합니다.

llm

machine-learning

May 7, 2026·mike

HippoRAG: LLM을 위한 신경생물학 기반의 장기 기억 장치

HippoRAG(NeurIPS 2024)는 OpenIE 트리플로부터 지식 그래프를 구축하고 질의 시 개인화된 페이지랭크를 적용하여, 2WikiMultiHopQA에서 ColBERTv2의 68.2% 대비 89.1%의 Recall@5를 달성했습니다. 이는 수년간의 거래 내역이 포함된 복잡한 재무 장부를 조회하는 데 직접적인 시사점을 제공합니다.

llm

machine-learning

May 6, 2026·mike

AgentBench: 에이전트로서의 LLM 평가 — 금융 AI 신뢰성을 위한 교훈

AgentBench (Liu 등, ICLR 2024)는 8개의 인터랙티브 환경에서 27개의 LLM을 벤치마킹했습니다. GPT-4는 전체 점수 4.01점을 기록한 반면, 최우수 오픈소스 모델은 0.96점에 그쳤습니다. 세 가지 주요 실패 모드(지식 그래프 실패의 67.9%를 차지하는 작업 한도 초과, 데이터베이스 실패의 53.3%를 차지하는 형식 오류, 유효하지 않은 작업)는 실제 장부에서 Beancount 쓰기 에이전트를 배포할 때의 위험과 직접적으로 연관됩니다.

llm

machine-learning

May 5, 2026·mike

BloombergGPT와 금융 도메인 특화 LLM의 한계

Bloomberg는 5,690억 개의 금융 데이터 토큰으로 500억 개의 파라미터를 가진 LLM을 학습시켜 감성 분석 및 표 추론 벤치마크에서 일반 모델을 압도했습니다. 그러나 이후 GPT-4가 금융 특화 사전 학습 없이도 이 성능을 따라잡았습니다. 1,000만 달러 규모의 이 실험이 도메인 사전 학습의 트레이드오프, 숫자의 토큰화, 그리고 왜 회계 에이전트에게 모델 내부 정보보다 도구 사용 기능이 더 신뢰할 수 있는지를 보여주는 바를 살펴봅니다.

llm

machine-learning

May 4, 2026·mike

AutoGen: 금융 AI를 위한 멀티 에이전트 대화 프레임워크

AutoGen(Wu et al., 2023)은 LLM 기반 에이전트들이 메시지를 주고받으며 작업을 완료하는 멀티 에이전트 대화 프레임워크를 소개합니다. 2개 에이전트 구성으로 MATH 벤치마크 정확도를 55%에서 69%로 높였으며, 전용 SafeGuard 에이전트는 안전하지 않은 코드 탐지 성능을 최대 35 F1 포인트 개선했습니다. 이러한 결과는 안전하고 모듈화된 Beancount 자동화 파이프라인 구축에 직접적으로 적용될 수 있습니다.

llm

automation

May 3, 2026·mike

Gorilla: 리트리버 인식 학습(Retriever-Aware Training)을 통해 LLM API 환각을 78%에서 11%로 줄이는 방법

Gorilla(Patil et al., NeurIPS 2024)는 리트리버 인식 학습(Retriever-Aware Training)을 통해 검색된 API 문서로 7B LLaMA 모델을 파인튜닝하여, GPT-4 제로샷 대비 환각률을 78%에서 11%로 낮췄습니다. 이는 잘못된 계정 이름이나 뒤바뀐 부호가 단순한 불편함을 넘어 정확성 실패로 이어지는 금융 AI 라이트백(write-back) 에이전트에 직접적인 시사점을 제공합니다.

llm

machine-learning

May 2, 2026·mike

MemGPT: LLM 에이전트를 위한 가상 컨텍스트 관리

MemGPT는 OS 스타일의 가상 메모리 페이징을 LLM에 적용하여 작업 메모리, 회상 메모리, 아카이브 메모리의 3계층 저장소를 사용해 에이전트에게 세션 간 지속적인 회상 능력을 부여합니다. 멀티 세션 채팅 벤치마크에서 MemGPT는 GPT-4를 활용해 92.5%의 정확도를 달성했으며, 이는 32.1%의 고정 컨텍스트 베이스라인과 대조됩니다.

llm

machine-learning

87개 중 61–72개 표시

이전6 / 8다음