Mike Thrift

Marketing Manager

April 19, 2026·mike

PHANTOM (NeurIPS 2025): سنجش تشخیص توهم مدل‌های زبانی بزرگ در اسناد مالی

PHANTOM (NeurIPS 2025) اولین بنچ‌مارک برای سنجش تشخیص توهم مدل‌های زبانی بزرگ (LLM) در گزارش‌های واقعی SEC با طول زمینه تا ۳۰,۰۰۰ توکن است. Qwen3-30B-A3B-Thinking با F1=0.882 پیشتاز است؛ مدل‌های 7B امتیازی نزدیک به حدس تصادفی دارند — که پیامدهای مستقیمی برای عوامل حسابداری خودکار دارد.

llm

machine-learning

April 18, 2026·mike

بنچ‌مارک FinMaster: چرا مدل‌های زبانی بزرگ در سواد مالی امتیاز ۹۶٪ اما در تولید صورت‌های مالی امتیاز ۳٪ کسب می‌کنند

بنچ‌مارک FinMaster (arXiv:2505.13533) مدل‌های o3-mini، Claude 3.7 Sonnet و DeepSeek-V3 را در ۱۸۳ وظیفه مالی ارزیابی می‌کند—و نشان می‌دهد که این مدل‌ها در سواد مالی امتیاز ۹۶٪ کسب می‌کنند اما در تولید صورت‌های مالی به ۳٪ سقوط می‌کنند، و در وظایف مشاوره‌ای چند مرحله‌ای به دلیل انتشار خطا، ۲۱ واحد از دقت خود را از دست می‌دهند.

llm

accounting

April 17, 2026·mike

ReAct: هم‌افزایی استدلال و عمل در مدل‌های زبانی

مقاله ReAct (Yao و همکاران، ICLR 2023) استدلال زنجیره اندیشه را با اقدامات ابزاری در یک مسیر واحد ادغام می‌کند و در تأیید واقعیت و یادگیری تقلیدی در وظایف تجسم‌یافته تا ۳۴ درصد از CoT خالص بهتر عمل می‌کند. این تحلیل به بررسی حالت‌های شکست مقاله — حواس‌پرتی ناشی از جستجو و خطاهای انباشته — و معنای آن‌ها برای عامل‌های خودمختار که در دفترکل‌های Beancount می‌نویسند، می‌پردازد.

llm

machine-learning

نمایش 85–87 از 87 پست

قبلی8 / 8