Salta al contingut principal
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Veure tots els autors

PHANTOM (NeurIPS 2025): Mesurant la detecció d'al·lucinacions d'LLM en documents financers
·mike

PHANTOM (NeurIPS 2025): Mesurant la detecció d'al·lucinacions d'LLM en documents financers

PHANTOM (NeurIPS 2025) és el primer banc de proves per mesurar la detecció d'al·lucinacions d'LLM en presentacions reals a la SEC amb longituds de context de fins a 30.000 tokens. Qwen3-30B-A3B-Thinking lidera amb un F1=0,882; els models de 7B puntuen a prop de l'atzar — amb implicacions directes per als agents de comptabilitat autònoms.

llm
ai
machine-learning
finance
+4
FinMaster Benchmark: Per què els LLMs obtenen un 96% en cultura financera però un 3% en generació d'estats financers
·mike

FinMaster Benchmark: Per què els LLMs obtenen un 96% en cultura financera però un 3% en generació d'estats financers

FinMaster (arXiv:2505.13533) avalua o3-mini, Claude 3.7 Sonnet i DeepSeek-V3 en 183 tasques financeres, revelant que els models obtenen un 96% en cultura financera però col·lapsen fins al 3% en la generació d'estats financers, amb tasques de consultoria de diversos passos que perden 21 punts de precisió per la propagació d'errors.

llm
accounting
ai
financial-statements
+3
ReAct: Sinergia de raonament i acció en models de llenguatge
·mike

ReAct: Sinergia de raonament i acció en models de llenguatge

ReAct (Yao et al., ICLR 2023) entrellaça el raonament de cadena de pensament amb accions d'eines en una sola trajectòria, superant el CoT pur en la verificació de fets i l'aprenentatge per imitació en tasques encarnades en 34 punts percentuals. Aquesta anàlisi cobreix els modes de fallada de l'article —distracció induïda per la cerca i errors compostos— i què signifiquen per als agents autònoms que escriuen en llibres majors de Beancount.

ai
llm
machine-learning
automation
+3
Mostrant 85–87 de 87 articles
Anterior8 / 8