Mike Thrift

Marketing Manager

April 19, 2026·mike

PHANTOM (NeurIPS 2025): Mesurant la detecció d'al·lucinacions d'LLM en documents financers

PHANTOM (NeurIPS 2025) és el primer banc de proves per mesurar la detecció d'al·lucinacions d'LLM en presentacions reals a la SEC amb longituds de context de fins a 30.000 tokens. Qwen3-30B-A3B-Thinking lidera amb un F1=0,882; els models de 7B puntuen a prop de l'atzar — amb implicacions directes per als agents de comptabilitat autònoms.

llm

machine-learning

April 18, 2026·mike

FinMaster Benchmark: Per què els LLMs obtenen un 96% en cultura financera però un 3% en generació d'estats financers

FinMaster (arXiv:2505.13533) avalua o3-mini, Claude 3.7 Sonnet i DeepSeek-V3 en 183 tasques financeres, revelant que els models obtenen un 96% en cultura financera però col·lapsen fins al 3% en la generació d'estats financers, amb tasques de consultoria de diversos passos que perden 21 punts de precisió per la propagació d'errors.

llm

accounting

April 17, 2026·mike

ReAct: Sinergia de raonament i acció en models de llenguatge

ReAct (Yao et al., ICLR 2023) entrellaça el raonament de cadena de pensament amb accions d'eines en una sola trajectòria, superant el CoT pur en la verificació de fets i l'aprenentatge per imitació en tasques encarnades en 34 punts percentuals. Aquesta anàlisi cobreix els modes de fallada de l'article —distracció induïda per la cerca i errors compostos— i què signifiquen per als agents autònoms que escriuen en llibres majors de Beancount.

llm

machine-learning

Mostrant 85–87 de 87 articles

Anterior8 / 8