본문으로 건너뛰기
Reconciliation

모든 것에 대하여 Reconciliation

10개의 기사
Automated ledger reconciliation using language model agents

FinRAGBench-V: 금융 도메인의 시각적 인용을 포함한 멀티모달 RAG

FinRAGBench-V(EMNLP 2025)는 금융 분야에서 시각적 인용을 포함한 멀티모달 RAG를 위한 최초의 대규모 벤치마크로, 112,000페이지 이상의 문서와 1,394개의 사람이 주석을 단 질의응답 쌍을 포함합니다. 상위 모델들은 블록 수준 인용 재현율이 20~61%에 불과하며, 멀티모달 검색은 텍스트 전용 검색보다 거의 50% 포인트 더 높은 성능을 보입니다.

LLM 에이전트가 CFO가 될 수 있을까? EnterpriseArena의 132개월 시뮬레이션이 보여주는 거대한 격차

EnterpriseArena는 생존율, 최종 가치, 결산율을 추적하며 11개의 LLM을 대상으로 132개월간의 CFO 시뮬레이션을 수행했습니다. 오직 Qwen3.5-9B만이 80%의 실행에서 생존했으며, GPT-5.4와 DeepSeek-V3.1은 0%를 기록했습니다. 인간 전문가는 100% 생존율과 최종 가치 5배를 달성했습니다. 결정적인 병목 현상은 LLM이 80%의 경우 장부 대조를 건너뛰고 오래된 재무 상태를 바탕으로 행동한다는 점이었습니다.

FinMCP-Bench: MCP 기반 실제 금융 도구 사용을 위한 LLM 에이전트 벤치마킹

FinMCP-Bench는 65개의 MCP 서버를 기반으로 하는 613개의 실제 금융 도구 사용 작업에서 6개의 LLM 모델을 평가합니다. 가장 우수한 모델도 멀티턴 작업에서 3.08%의 완전 일치(exact match) 점수를 기록하여, 단일 도구 사용 대비 멀티턴 시나리오에서 성능이 20배 하락함을 보여줍니다.

중간에서 찾기: 위치적 어텐션 편향 보정을 통한 롱 컨텍스트 RAG 개선

추가 학습이 필요 없는 추론 시점 보정 기술은 LLM 어텐션 가중치에서 위치적 편향을 제거하여, 검색된 문서가 컨텍스트 중간에 위치할 때 RAG 정확도를 최대 15% 포인트까지 회복시킵니다. 금융 특화 에이전트 파이프라인에 미치는 영향을 살펴봅니다.

Fin-RATE: LLM이 기간 간 및 기업 간 재무 분석에서 실패하는 방식

Fin-RATE는 2,472개의 SEC 공시에서 추출한 7,500개의 전문가 큐레이션 QA 쌍을 통해 17개의 LLM을 벤치마킹하여, 시계열 추적 시 정확도가 18.60% 급락하고 금융 특화 모델인 Fin-R1의 경우 기업 간 작업에서 54포인트 하락하는 등 한계를 드러냈습니다. 또한 검색(retrieval) 파이프라인이 백본 모델보다 더 큰 병목 현상인 것으로 나타났습니다.

Voyager: 평생 지속되는 AI 에이전트 학습의 기초로서의 스킬 라이브러리

NVIDIA와 Caltech의 GPT-4 기반 Minecraft 에이전트인 Voyager는 영구적인 코드 스킬 라이브러리가 미세 조정 없이도 진정한 평생 학습을 가능하게 한다는 점을 보여주며, 기존의 최신 기술보다 3.3배 더 많은 아이템을 발견했습니다. 이 패턴은 장기적인 Beancount 원장 자동화에 직접적으로 적용될 수 있지만, 재무적 정확성을 위해서는 게임 샌드박스에서는 필요하지 않았던 스테이징 레이어가 필요합니다.

AutoGen: 금융 AI를 위한 멀티 에이전트 대화 프레임워크

AutoGen(Wu et al., 2023)은 LLM 기반 에이전트들이 메시지를 주고받으며 작업을 완료하는 멀티 에이전트 대화 프레임워크를 소개합니다. 2개 에이전트 구성으로 MATH 벤치마크 정확도를 55%에서 69%로 높였으며, 전용 SafeGuard 에이전트는 안전하지 않은 코드 탐지 성능을 최대 35 F1 포인트 개선했습니다. 이러한 결과는 안전하고 모듈화된 Beancount 자동화 파이프라인 구축에 직접적으로 적용될 수 있습니다.

CodeAct: 실행 가능한 파이썬 코드가 LLM 에이전트의 정확도를 20% 높이는 이유

CodeAct(ICML 2024)는 JSON 도구 호출을 실행 가능한 파이썬 코드로 대체하여 다중 도구 작업에서 GPT-4 에이전트 성공률을 약 20%포인트 향상시키고 상호 작용 횟수를 30% 줄였습니다. 이는 신뢰할 수 있는 Beancount 대조 에이전트 구축에 직접적인 시사점을 제공합니다.

CRITIC: LLM 자기 수정에 외부 도구 피드백이 필요한 이유

CRITIC(ICLR 2024)은 외부 도구 신호를 바탕으로 LLM 수정을 수행하여 오픈 도메인 QA에서 7.7 F1 점수 향상과 79.2%의 유해성 감소를 달성했습니다. 이는 Beancount 금융 에이전트의 기록 안전성(write-back safety)에 직접 적용할 수 있는 '검증 후 수정' 루프입니다.

ReAct: 언어 모델에서의 추론과 행동의 시너지 창출

ReAct(Yao et al., ICLR 2023)는 단일 궤적 내에서 생각의 사슬(CoT) 추론과 도구 동작을 교차 배치하여, 사실 확인에서 순수 CoT를 능가하고 구체화된 작업의 모방 학습에서 34%포인트 더 높은 성능을 보여줍니다. 이 분석은 검색으로 인한 주의 분산 및 오류 누적과 같은 논문의 실패 모드와 이것이 Beancount 장부에 기록을 남기는 자율 에이전트에게 어떤 의미가 있는지 다룹니다.