Mike Thrift
Marketing Manager
PHANTOM (NeurIPS 2025): Mesurant la detecció d'al·lucinacions d'LLM en documents financers
PHANTOM (NeurIPS 2025) és el primer banc de proves per mesurar la detecció d'al·lucinacions d'LLM en presentacions reals a la SEC amb longituds de context de fins a 30.000 tokens. Qwen3-30B-A3B-Thinking lidera amb un F1=0,882; els models de 7B puntuen a prop de l'atzar — amb implicacions directes per als agents de comptabilitat autònoms.
FinMaster Benchmark: Per què els LLMs obtenen un 96% en cultura financera però un 3% en generació d'estats financers
FinMaster (arXiv:2505.13533) avalua o3-mini, Claude 3.7 Sonnet i DeepSeek-V3 en 183 tasques financeres, revelant que els models obtenen un 96% en cultura financera però col·lapsen fins al 3% en la generació d'estats financers, amb tasques de consultoria de diversos passos que perden 21 punts de precisió per la propagació d'errors.
ReAct: Sinergia de raonament i acció en models de llenguatge
ReAct (Yao et al., ICLR 2023) entrellaça el raonament de cadena de pensament amb accions d'eines en una sola trajectòria, superant el CoT pur en la verificació de fets i l'aprenentatge per imitació en tasques encarnades en 34 punts percentuals. Aquesta anàlisi cobreix els modes de fallada de l'article —distracció induïda per la cerca i errors compostos— i què signifiquen per als agents autònoms que escriuen en llibres majors de Beancount.