Mike Thrift
Marketing Manager
PHANTOM (NeurIPS 2025): سنجش تشخیص توهم مدلهای زبانی بزرگ در اسناد مالی
PHANTOM (NeurIPS 2025) اولین بنچمارک برای سنجش تشخیص توهم مدلهای زبانی بزرگ (LLM) در گزارشهای واقعی SEC با طول زمینه تا ۳۰,۰۰۰ توکن است. Qwen3-30B-A3B-Thinking با F1=0.882 پیشتاز است؛ مدلهای 7B امتیازی نزدیک به حدس تصادفی دارند — که پیامدهای مستقیمی برای عوامل حسابداری خودکار دارد.
بنچمارک FinMaster: چرا مدلهای زبانی بزرگ در سواد مالی امتیاز ۹۶٪ اما در تولید صورتهای مالی امتیاز ۳٪ کسب میکنند
بنچمارک FinMaster (arXiv:2505.13533) مدلهای o3-mini، Claude 3.7 Sonnet و DeepSeek-V3 را در ۱۸۳ وظیفه مالی ارزیابی میکند—و نشان میدهد که این مدلها در سواد مالی امتیاز ۹۶٪ کسب میکنند اما در تولید صورتهای مالی به ۳٪ سقوط میکنند، و در وظایف مشاورهای چند مرحلهای به دلیل انتشار خطا، ۲۱ واحد از دقت خود را از دست میدهند.
ReAct: همافزایی استدلال و عمل در مدلهای زبانی
مقاله ReAct (Yao و همکاران، ICLR 2023) استدلال زنجیره اندیشه را با اقدامات ابزاری در یک مسیر واحد ادغام میکند و در تأیید واقعیت و یادگیری تقلیدی در وظایف تجسمیافته تا ۳۴ درصد از CoT خالص بهتر عمل میکند. این تحلیل به بررسی حالتهای شکست مقاله — حواسپرتی ناشی از جستجو و خطاهای انباشته — و معنای آنها برای عاملهای خودمختار که در دفترکلهای Beancount مینویسند، میپردازد.