پرش به محتوای اصلی
Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

مشاهده تمام نویسندگان

PHANTOM (NeurIPS 2025): سنجش تشخیص توهم مدل‌های زبانی بزرگ در اسناد مالی
·mike

PHANTOM (NeurIPS 2025): سنجش تشخیص توهم مدل‌های زبانی بزرگ در اسناد مالی

PHANTOM (NeurIPS 2025) اولین بنچ‌مارک برای سنجش تشخیص توهم مدل‌های زبانی بزرگ (LLM) در گزارش‌های واقعی SEC با طول زمینه تا ۳۰,۰۰۰ توکن است. Qwen3-30B-A3B-Thinking با F1=0.882 پیشتاز است؛ مدل‌های 7B امتیازی نزدیک به حدس تصادفی دارند — که پیامدهای مستقیمی برای عوامل حسابداری خودکار دارد.

llm
ai
machine-learning
finance
+4
بنچ‌مارک FinMaster: چرا مدل‌های زبانی بزرگ در سواد مالی امتیاز ۹۶٪ اما در تولید صورت‌های مالی امتیاز ۳٪ کسب می‌کنند
·mike

بنچ‌مارک FinMaster: چرا مدل‌های زبانی بزرگ در سواد مالی امتیاز ۹۶٪ اما در تولید صورت‌های مالی امتیاز ۳٪ کسب می‌کنند

بنچ‌مارک FinMaster (arXiv:2505.13533) مدل‌های o3-mini، Claude 3.7 Sonnet و DeepSeek-V3 را در ۱۸۳ وظیفه مالی ارزیابی می‌کند—و نشان می‌دهد که این مدل‌ها در سواد مالی امتیاز ۹۶٪ کسب می‌کنند اما در تولید صورت‌های مالی به ۳٪ سقوط می‌کنند، و در وظایف مشاوره‌ای چند مرحله‌ای به دلیل انتشار خطا، ۲۱ واحد از دقت خود را از دست می‌دهند.

llm
accounting
ai
financial-statements
+3
ReAct: هم‌افزایی استدلال و عمل در مدل‌های زبانی
·mike

ReAct: هم‌افزایی استدلال و عمل در مدل‌های زبانی

مقاله ReAct (Yao و همکاران، ICLR 2023) استدلال زنجیره اندیشه را با اقدامات ابزاری در یک مسیر واحد ادغام می‌کند و در تأیید واقعیت و یادگیری تقلیدی در وظایف تجسم‌یافته تا ۳۴ درصد از CoT خالص بهتر عمل می‌کند. این تحلیل به بررسی حالت‌های شکست مقاله — حواس‌پرتی ناشی از جستجو و خطاهای انباشته — و معنای آن‌ها برای عامل‌های خودمختار که در دفترکل‌های Beancount می‌نویسند، می‌پردازد.

ai
llm
machine-learning
automation
+3
نمایش 85–87 از 87 پست
قبلی8 / 8