Mike Thrift

Marketing Manager

April 19, 2026·mike

PHANTOM (NeurIPS 2025): 金融文書におけるLLMのハルシネーション検出の測定

PHANTOM（NeurIPS 2025）は、最大30,000トークンのコンテキスト長にわたる実際のSEC提出書類を用いて、LLMのハルシネーション検出を測定する初のベンチマークです。Qwen3-30B-A3B-ThinkingがF1=0.882でリードしており、7Bモデルのスコアはランダムな推測に近く、これは自律型会計エージェントに直接的な影響を及ぼします。

llm

machine-learning

April 18, 2026·mike

FinMasterベンチマーク：LLMが金融リテラシーで96%を記録しながら財務諸表作成で3%に沈む理由

FinMaster (arXiv:2505.13533)は、183の金融タスクにおいてo3-mini、Claude 3.7 Sonnet、DeepSeek-V3をベンチマーク評価しました。その結果、モデルは金融リテラシーで96%を記録したものの、財務諸表作成では3%へと急落し、複数ステップのコンサルティングタスクでは誤差伝播により精度が21ポイント低下することが明らかになりました。

llm

accounting

April 17, 2026·mike

ReAct：言語モデルにおける推論と行動の相乗効果

ReAct (Yao et al., ICLR 2023) は、Chain-of-Thought（思考の連鎖）推論とツールのアクションを単一の軌跡に統合し、事実検証において純粋な CoT を、具現化タスクの模倣学習において 34 ポイント上回る成果を上げました。この分析では、検索による混乱や累積誤差といった論文の失敗モードを、Beancount 元帳へ書き戻しを行う自律型エージェントにとっての意味合いを含めて解説します。

llm

machine-learning

87件中85–87件を表示中

前へ8 / 8