Mike Thrift

Marketing Manager

May 1, 2026·mike

SWE-agent: 인터페이스 디자인이 자동화된 소프트웨어 엔지니어링을 구현하는 방법

SWE-agent(NeurIPS 2024)는 LLM과 소프트웨어 환경 사이의 전용 레이어인 에이전트-컴퓨터 인터페이스(ACI)를 도입하여, 원시 셸(raw shell) 접근 방식보다 10.7%포인트 향상된 성능을 보였으며 GPT-4 Turbo를 통해 SWE-bench에서 12.47%의 해결률을 기록했습니다. 자율 코딩 에이전트의 주요 병목 현상은 모델의 능력이 아니라 인터페이스 디자인입니다.

llm

automation

April 30, 2026·mike

SWE-bench: 언어 모델이 실제 GitHub 문제를 해결할 수 있을까?

SWE-bench는 실행 기반 테스트를 사용하여 12개의 Python 저장소에 걸친 2,294개의 실제 GitHub 이슈에 대해 언어 모델을 평가합니다. 발표 당시 Claude 2는 현실적인 검색 환경에서 이슈의 1.96%만을 해결하며 코딩 에이전트의 사실상 표준 벤치마크로 자리 잡았습니다. 또한 Beancount 쓰기 자동화(write-back) 에이전트와 직접적으로 관련된 검색 및 패치 길이 실패 모드를 밝혀냈습니다.

llm

machine-learning

April 29, 2026·mike

CodeAct: 실행 가능한 파이썬 코드가 LLM 에이전트의 정확도를 20% 높이는 이유

CodeAct(ICML 2024)는 JSON 도구 호출을 실행 가능한 파이썬 코드로 대체하여 다중 도구 작업에서 GPT-4 에이전트 성공률을 약 20%포인트 향상시키고 상호 작용 횟수를 30% 줄였습니다. 이는 신뢰할 수 있는 Beancount 대조 에이전트 구축에 직접적인 시사점을 제공합니다.

llm

automation

April 28, 2026·mike

LLM은 아직 추론을 자가 수정할 수 없다 — ICLR 2024 연구 결과 및 금융 AI에 미치는 영향

Huang 등의 연구(ICLR 2024)는 외부 피드백 없이 LLM에게 스스로의 추론을 검토하게 하면 일관되게 정확도가 떨어진다는 것을 보여줍니다. GSM8K에서 GPT-4는 95.5%에서 91.5%로 하락했습니다. 이 결과가 신뢰할 수 있는 Beancount 분개장 입력 에이전트를 설계하는 데 어떤 의미를 갖는지 설명합니다.

llm

machine-learning

April 27, 2026·mike

생각의 나무(Tree of Thoughts): LLM 검색을 통한 신중한 문제 해결

생각의 나무(Tree of Thoughts, ToT)는 LLM 추론을 가지치기와 백트래킹이 가능한 분기형 검색 트리로 구조화하여, 24 게임(Game of 24)에서 표준 GPT-4 CoT의 4% 대비 74%의 성공률을 달성했습니다. 이는 Beancount 워크플로우의 다단계 금융 분류 및 세금 최적화에 직접적인 시사점을 제공합니다.

llm

machine-learning

April 26, 2026·mike

CRITIC: LLM 자기 수정에 외부 도구 피드백이 필요한 이유

CRITIC(ICLR 2024)은 외부 도구 신호를 바탕으로 LLM 수정을 수행하여 오픈 도메인 QA에서 7.7 F1 점수 향상과 79.2%의 유해성 감소를 달성했습니다. 이는 Beancount 금융 에이전트의 기록 안전성(write-back safety)에 직접 적용할 수 있는 '검증 후 수정' 루프입니다.

llm

machine-learning

April 25, 2026·mike

Reflexion: 재학습 없이 실수로부터 학습하는 언어 에이전트

Reflexion(NeurIPS 2023)은 LLM 에이전트가 에피소드 버퍼에 언어적 사후 분석을 저장함으로써 가중치 업데이트 없이 성능을 향상시킬 수 있게 합니다. GPT-4를 사용해 HumanEval에서 91%를 달성했지만 WebShop에서는 실패했는데, 이는 언어적 강화가 평가자가 명확하고 실행 가능한 신호를 생성할 때만 작동한다는 구조적 제약을 드러냅니다. 자가 수정 Beancount 장부 에이전트를 구축하는 데 있어 이것이 무엇을 의미하는지 알아봅니다.

llm

machine-learning

April 24, 2026·mike

자기 일관성(Self-Consistency): 다수결 샘플링을 통한 생각의 사슬 정확도 향상

자기 일관성은 탐욕적 생각의 사슬(Greedy Chain-of-Thought) 디코딩을 N개의 샘플링된 추론 경로에 대한 다수결로 대체하여, 별도의 미세 조정 없이 GSM8K 데이터셋에서 GPT-3의 정확도를 17.9%포인트 향상시키며, 단일 LLM 디코딩을 신뢰할 수 없는 다단계 금융 계산에 직접 적용할 수 있습니다.

llm

machine-learning

April 23, 2026·mike

PAL: 신뢰할 수 있는 금융 산술을 위한 프로그램 보조 언어 모델

PAL(프로그램 보조 언어 모델)은 계산을 파이썬 인터프리터에 위임함으로써 산술 집약적인 작업에서 생각의 사슬(Chain-of-Thought)보다 38%p 높은 정확도 향상을 달성했습니다. 이는 신뢰할 수 있는 Beancount 원장 쿼리 및 금융 AI를 위한 직접 적용 가능한 아키텍처입니다.

llm

machine-learning

April 22, 2026·mike

LLM이 표 형식 데이터를 추론할 수 있을까? 금융 AI에 대해 4가지 벤치마크가 시사하는 바

2024~2025년의 4가지 벤치마크에 따르면, 실제 표 QA에서 GPT-4는 인간의 86%에 비해 42%의 점수를 기록했으며, 복잡한 집계 작업에서는 19.6%까지 하락했습니다. 또한 Beancount의 네이티브 구문은 LLM 입력을 위한 직렬화 계층 구조에서 가장 낮은 성능을 보이는 위치에 있습니다.

llm

beancount

April 21, 2026·mike

회계 에이전트를 위한 헌법적 AI: RLAIF, 정책 규칙 및 굿하트의 법칙 리스크

Anthropic의 헌법적 AI(Constitutional AI) 논문(Bai et al., 2022)은 인간의 유해성 레이블 대신 AI 생성 피드백을 사용하여 LLM이 규칙을 따르도록 훈련합니다. 이 연구 로그는 RLAIF의 비판-수정-선호도 파이프라인이 자율적인 Beancount 원장 에이전트의 쓰기 작업 안전성에 어떻게 매핑되는지, 그리고 "헌법"이 윤리 규칙 세트가 아닌 계정 과목표일 때 굿하트의 법칙(Goodharting), 보정 실패 및 이중 용도 리스크가 어떤 모습인지 살펴봅니다.

machine-learning

llm

April 20, 2026·mike

생각의 사슬 프롬프팅: 금융 AI를 위한 정밀도-재현율 트레이드오프

Wei 외 연구진의 2022년 생각의 사슬(Chain-of-Thought) 논문을 심층 분석하고, 이것이 금융 AI에 시사하는 바를 살펴봅니다. CoT가 정밀도를 높이는 반면 희귀 이벤트 탐지에서 재현율을 낮출 수 있는 이유, 프로덕션 에이전트에서 스케일 임계값이 중요한 이유, 그리고 LLM 기반 금융 팀이 주의해야 할 점을 다룹니다.

llm

machine-learning

87개 중 73–84개 표시

이전7 / 8다음