Preskočiť na hlavný obsah
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

Zobraziť všetkých autorov

PHANTOM (NeurIPS 2025): Meranie detekcie halucinácií LLM vo finančných dokumentoch
·mike

PHANTOM (NeurIPS 2025): Meranie detekcie halucinácií LLM vo finančných dokumentoch

PHANTOM (NeurIPS 2025) je prvý benchmark na meranie detekcie halucinácií LLM v reálnych podaniach SEC v dĺžkach kontextu až do 30 000 tokenov. Qwen3-30B-A3B-Thinking vedie s F1=0,882; 7B modely dosahujú výsledky blízke náhodnému tipovaniu — s priamymi dôsledkami pre autonómnych účtovných agentov.

llm
ai
machine-learning
finance
+4
Benchmark FinMaster: Prečo LLM dosahujú 96 % vo finančnej gramotnosti, ale iba 3 % pri generovaní výkazov
·mike

Benchmark FinMaster: Prečo LLM dosahujú 96 % vo finančnej gramotnosti, ale iba 3 % pri generovaní výkazov

FinMaster (arXiv:2505.13533) porovnáva modely o3-mini, Claude 3.7 Sonnet a DeepSeek-V3 v 183 finančných úlohách – odhaľuje, že modely dosahujú 96 % vo finančnej gramotnosti, ale klesajú na 3 % pri generovaní výkazov, pričom viacstupňové konzultačné úlohy strácajú 21 bodov presnosti v dôsledku šírenia chýb.

llm
accounting
ai
financial-statements
+3
ReAct: Synergia uvažovania a konania v jazykových modeloch
·mike

ReAct: Synergia uvažovania a konania v jazykových modeloch

ReAct (Yao a kol., ICLR 2023) preplieta uvažovanie typu reťazec myšlienok s akciami nástrojov v jednej trajektórii, čím prekonáva čisté CoT pri overovaní faktov a imitačné učenie pri stelesnených úlohách o 34 percentuálnych bodov. Táto analýza pokrýva chybové režimy článku — rozptýlenie vyvolané vyhľadávaním a kumulovanie chýb — a to, čo znamenajú pre autonómnych agentov zapisujúcich späť do účtovných kníh Beancount.

ai
llm
machine-learning
automation
+3
Zobrazené 85–87 z 87 príspevkov
Predch.8 / 8