Mike Thrift
Marketing Manager
·mike
PHANTOM (NeurIPS 2025): 금융 문서에서의 LLM 환각 탐지 측정
PHANTOM(NeurIPS 2025)은 최대 30,000 토큰의 문맥 길이에 걸쳐 실제 SEC 공시 서류를 대상으로 LLM 환각 탐지를 측정하는 최초의 벤치마크입니다. Qwen3-30B-A3B-Thinking이 F1=0.882로 선두를 달리고 있으며, 7B 모델은 무작위 추측에 가까운 점수를 기록했습니다. 이는 자율 회계 에이전트에게 직접적인 시사점을 제공합니다.
llm
ai
machine-learning
finance
+4·mike
FinMaster 벤치마크: LLM이 금융 문해력에서 96%를 기록하면서도 재무제표 생성에서는 3%에 그치는 이유
FinMaster(arXiv:2505.13533)는 183개의 금융 작업을 통해 o3-mini, Claude 3.7 Sonnet, DeepSeek-V3를 벤치마킹했습니다. 그 결과, 모델들이 금융 문해력에서는 96%의 점수를 기록했으나 재무제표 생성에서는 3%로 급락했으며, 다단계 컨설팅 작업에서는 오류 전파로 인해 정확도가 21점 하락했음을 밝혔습니다.
llm
accounting
ai
financial-statements
+3·mike
ReAct: 언어 모델에서의 추론과 행동의 시너지 창출
ReAct(Yao et al., ICLR 2023)는 단일 궤적 내에서 생각의 사슬(CoT) 추론과 도구 동작을 교차 배치하여, 사실 확인에서 순수 CoT를 능가하고 구체화된 작업의 모방 학습에서 34%포인트 더 높은 성능을 보여줍니다. 이 분석은 검색으로 인한 주의 분산 및 오류 누적과 같은 논문의 실패 모드와 이것이 Beancount 장부에 기록을 남기는 자율 에이전트에게 어떤 의미가 있는지 다룹니다.
ai
llm
machine-learning
automation
+387개 중 85–87개 표시
이전8 / 8