2026
- 4월 15일 - FinBen: 36가지 금융 과제에 대한 LLM 벤치마킹 — 회계 AI를 위한 시사점
- 4월 16일 - Toolformer: 자기 지도형 도구 사용과 금융 AI를 위한 한계
- 4월 17일 - ReAct: 언어 모델에서의 추론과 행동의 시너지 창출
- 4월 18일 - FinMaster 벤치마크: LLM이 금융 문해력에서 96%를 기록하면서도 재무제표 생성에서는 3%에 그치는 이유
- 4월 19일 - PHANTOM (NeurIPS 2025): 금융 문서에서의 LLM 환각 탐지 측정
- 4월 20일 - 생각의 사슬 프롬프팅: 금융 AI를 위한 정밀도-재현율 트레이드오프
- 4월 21일 - 회계 에이전트를 위한 헌법적 AI: RLAIF, 정책 규칙 및 굿하트의 법칙 리스크
- 4월 22일 - LLM이 표 형식 데이터를 추론할 수 있을까? 금융 AI에 대해 4가지 벤치마크가 시사하는 바
- 4월 23일 - PAL: 신뢰할 수 있는 금융 산술을 위한 프로그램 보조 언어 모델
- 4월 24일 - 자기 일관성(Self-Consistency): 다수결 샘플링을 통한 생각의 사슬 정확도 향상
- 4월 25일 - Reflexion: 재학습 없이 실수로부터 학습하는 언어 에이전트
- 4월 26일 - CRITIC: LLM 자기 수정에 외부 도구 피드백이 필요한 이유
- 4월 27일 - 생각의 나무(Tree of Thoughts): LLM 검색을 통한 신중한 문제 해결
- 4월 28일 - LLM은 아직 추론을 자가 수정할 수 없다 — ICLR 2024 연구 결과 및 금융 AI에 미치는 영향
- 4월 29일 - CodeAct: 실행 가능한 파이썬 코드가 LLM 에이전트의 정확도를 20% 높이는 이유
- 4월 30일 - SWE-bench: 언어 모델이 실제 GitHub 문제를 해결할 수 있을까?
- 5월 1일 - SWE-agent: 인터페이스 디자인이 자동화된 소프트웨어 엔지니어링을 구현하는 방법
- 5월 2일 - MemGPT: LLM 에이전트를 위한 가상 컨텍스트 관리
- 5월 3일 - Gorilla: 리트리버 인식 학습(Retriever-Aware Training)을 통해 LLM API 환각을 78%에서 11%로 줄이는 방법
- 5월 4일 - AutoGen: 금융 AI를 위한 멀티 에이전트 대화 프레임워크
- 5월 5일 - BloombergGPT와 금융 도메인 특화 LLM의 한계
- 5월 6일 - AgentBench: 에이전트로서의 LLM 평가 — 금융 AI 신뢰성을 위한 교훈
- 5월 7일 - HippoRAG: LLM을 위한 신경생물학 기반의 장기 기억 장치
- 5월 8일 - Voyager: 평생 지속되는 AI 에이전트 학습의 기초로서의 스킬 라이브러리
- 5월 9일 - Self-RAG: LLM을 위한 적응형 검색 및 자기 비판
- 5월 10일 - LATS: Language Agent Tree Search — 추론, 행동, 계획을 하나의 프레임워크로 통합
- 5월 11일 - DSPy: 취약한 프롬프트 엔지니어링을 컴파일된 LLM 파이프라인으로 대체하기
- 5월 12일 - FinanceBench: 왜 벡터 저장소 RAG가 실제 금융 문서에서 실패하는가
- 5월 13일 - FinQA: 재무 보고서의 AI 수치 추론 능력을 측정하는 벤치마크
- 5월 14일 - TAT-QA: 재무 연례 보고서 추론을 위한 하이브리드 표-텍스트 질의응답 벤치마크
- 5월 15일 - ConvFinQA: 다회차 금융 질의응답과 모델 및 전문가 사이의 21포인트 격차
- 5월 16일 - MultiHiertt: 다중 계층 재무 제표에 대한 수치 추론 벤치마킹
- 5월 17일 - 지식 집약적 NLP 작업을 위한 검색 증강 생성(RAG)
- 5월 18일 - FLARE: 능동적 검색 증강 생성(Active Retrieval Augmented Generation)
- 5월 19일 - IRCoT: 다단계 QA를 위한 검색과 사고의 사슬(Chain-of-Thought) 교차 방식
- 5월 20일 - 파인튜닝 vs. RAG: LLM에 새로운 지식을 주입할 때 검색 기능이 우세한 이유
- 5월 21일 - TAT-LLM: 금융 표 및 텍스트에 대한 이산적 추론을 위해 미세 조정된 LLaMA 2
- 5월 22일 - AuditCopilot: 복식 부기 부정 탐지를 위한 LLM 활용
- 5월 23일 - LLM은 시계열 예측에 유용하지 않다: NeurIPS 2024가 금융 AI에 시사하는 바
- 5월 24일 - 다중 에이전트 LLM 토론: 실질적인 정확도 향상, 제어되지 않은 연산 비용, 그리고 집단적 망상
- 5월 25일 - GuardAgent: 코드 실행을 통한 LLM 에이전트의 결정론적 안전 강제
- 5월 26일 - Fusion-in-Decoder: 다중 구절 검색이 생성형 QA를 개선하는 방법
- 5월 27일 - Atlas: Retriever-Reader 합동 사전 학습으로 110억 개의 파라미터만으로 5,400억 개의 파라미터 LLM을 능가하다
- 5월 28일 - ShieldAgent: LLM 에이전트를 위한 검증 가능한 안전 정책 추론
- 5월 29일 - AGrail: 작업 전반에 걸쳐 학습하는 LLM 에이전트를 위한 적응형 안전 가드레일
- 5월 30일 - M3MAD-Bench: 멀티 에이전트 토론은 도메인과 모달리티 전반에서 정말로 효과적인가?
- 5월 31일 - 동일한 사고 토큰 예산 하에서 단일 에이전트 LLM이 다중 홉 추론 시 다중 에이전트 시스템보다 우수한 성능을 보임
- 6월 1일 - StructRAG (ICLR 2025): 적절한 문서 구조 선택으로 GraphRAG보다 28점 높은 성능 달성
- 6월 2일 - InvestorBench: 금융 거래 결정에서의 LLM 에이전트 벤치마킹
- 6월 3일 - FinAuditing: 실제 SEC XBRL 감사 작업에서 LLM의 점수가 14% 미만을 기록함
- 6월 4일 - GraphRAG: 로컬에서 글로벌 쿼리 중심 요약까지
- 6월 5일 - LLM 에이전트를 위한 검증 가능한 안전한 도구 사용: STPA와 MCP의 만남
- 6월 6일 - BIRD 벤치마크: LLM Text-to-SQL의 실제 데이터베이스 격차
- 6월 7일 - DIN-SQL: Text-to-SQL을 위한 분해된 인컨텍스트 학습(Decomposed In-Context Learning)
- 6월 8일 - MAC-SQL: 다중 에이전트 협업 텍스트-SQL(Text-to-SQL)
- 6월 9일 - TAPAS: SQL 없는 약지도 학습 기반 테이블 질의응답과 Beancount에 주는 의미
- 6월 10일 - TableLlama: Can a 7B Open Model Match GPT-4 on Table Understanding?
- 6월 11일 - Chain-of-Table: LLM 추론 체인에서의 테이블 진화
- 6월 12일 - τ-bench: 실제 도구 사용 도메인에서의 AI 에이전트 신뢰도 측정
- 6월 13일 - WorkArena: LLM 웹 에이전트가 실제 기업 지식 업무에서 보여주는 성능
- 6월 14일 - WebArena: 웹 에이전트의 실제 수행 능력과 한계를 측정하는 812개 작업 벤치마크
- 6월 15일 - OSWorld: 인간이 72% 성공하는 작업에서 데스크톱 AI 에이전트의 성공률은 12%에 불과함
- 6월 16일 - GAIA 벤치마크: 프런티어 AI 에이전트의 실제 수행 능력 측정
- 6월 17일 - WorkArena++: 복합적 기업 업무에서 인간과 AI 에이전트 간의 93% 성능 격차
- 6월 18일 - τ²-bench: 대화형 AI 에이전트의 이중 제어 비용 측정
- 6월 19일 - TheAgentCompany: 실제 기업 업무에서의 LLM 에이전트 벤치마킹
- 6월 20일 - DocFinQA: 전체 SEC 공시 자료를 활용한 롱 컨텍스트 금융 추론
- 6월 21일 - LLM을 활용한 제로샷 이상 탐지: GPT-4의 정형 데이터 성능 분석
- 6월 22일 - TableMaster: LLM을 활용한 표 이해를 위한 적응형 추론
- 6월 23일 - Beancount DSL 생성에서 LLM 점수 2.3%: LLMFinLiteracy 벤치마크
- 6월 24일 - AnoLLM: 금융 데이터의 정형 변칙 탐지를 위한 LLM 미세 조정
- 6월 25일 - CausalTAD: LLM 정형 데이터 이상 탐지를 위한 인과적 열 순서 지정
- 6월 26일 - AD-LLM 벤치마크: GPT-4o, 텍스트 이상 탐지에서 제로샷 AUROC 0.93+ 달성
- 6월 27일 - Lost in the Middle: LLM의 위치 편향과 금융 AI에 미치는 영향
- 6월 28일 - FinDER: 실제 분석가 쿼리를 통해 드러난 금융 RAG의 74% 재현율 격차
- 6월 29일 - Fin-RATE: LLM이 기간 간 및 기업 간 재무 분석에서 실패하는 방식
- 6월 30일 - OpenHands: AI 소프트웨어 에이전트를 위한 개방형 플랫폼과 금융 자동화에 시사하는 점
- 7월 1일 - LLM 에이전트를 위한 불확실성 기반 위임: 소형 모델에서 대형 모델로 전환하는 시점
- 7월 2일 - 중간에서 찾기: 위치적 어텐션 편향 보정을 통한 롱 컨텍스트 RAG 개선
- 7월 3일 - LLM 이상 탐지 서베이 (NAACL 2025): 강력한 분류 체계, 부족 한 정형 데이터 커버리지
- 7월 4일 - OmniEval: 금융 도메인을 위한 전방위적 RAG 평가 벤치마크
- 7월 5일 - FinToolBench: 실제 금융 도구 사용에 대한 LLM 에이전트 평가
- 7월 6일 - FinTrace: 금융 작업을 위한 LLM 도구 호출의 궤적 수준 평가
- 7월 7일 - FinMCP-Bench: MCP 기반 실제 금융 도구 사용을 위한 LLM 에이전트 벤치마킹
- 7월 8일 - JSONSchemaBench: 실제 스키마 복잡성으로 인한 LLM 구조적 출력 보장 실패
- 7월 9일 - LLM의 신뢰도와 캘리브레이션: 연구 결과가 실제로 보여주는 것에 대한 서베이
- 7월 10일 - WildToolBench: 실제 환경의 도구 사용에서 LLM의 세션 정확도가 15%를 넘지 못하는 이유
- 7월 11일 - LLM 에이전트가 CFO가 될 수 있을까? EnterpriseArena의 132개월 시뮬레이션이 보여주는 거대한 격차
- 7월 12일 - FinRAGBench-V: 금융 도메인의 시각적 인용을 포함한 멀티모달 RAG
