4 پست با برچسب "Decision-making"

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

تعویق آگاه از عدم قطعیت برای عامل‌های LLM: چه زمانی از مدل‌های کوچک به بزرگ ارجاع دهیم

سیستم ReDAct به‌طور پیش‌فرض یک مدل کوچک را اجرا می‌کند و تنها زمانی به یک مدل گران‌قیمت ارجاع می‌دهد که پرپلکسیتی در سطح توکن نشان‌دهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفه‌جویی در هزینه‌ها می‌شود؛ الگویی که مستقیماً برای عامل‌های دسته‌بندی تراکنش در Beancount قابل استفاده است.

LLMAIFinanceMachine LearningForecastingDecision-makingData Science

InvestorBench: ارزیابی مدل‌های زبانی بزرگ در تصمیم‌گیری‌های معاملاتی مالی

پروژه InvestorBench (ACL 2025) ۱۳ مدل پایه LLM را در معاملات بک‌تست شده سهام، کریپتو و ETF با استفاده از بازده تجمعی و نسبت شارپ آزمایش می‌کند—نه دقت پرسش و پاسخ. مدل Qwen2.5-72B با بازده تجمعی ۴۶.۱۵٪ در صدر جدول سهام قرار دارد؛ مدل‌های تنظیم‌شده برای امور مالی در بخش سهام نتیجه معکوس دادند. اندازه مدل بیش از تنظیم دقیق تخصصی، پیش‌بینی‌کننده عملکرد است.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: جستجوی درختی عامل زبانی — استدلال، عمل و برنامه‌ریزی در یک چارچوب واحد

LATS (جستجوی درختی عامل زبانی، ICML 2024) روش‌های ReAct، درخت افکار (Tree of Thoughts) و Reflexion را در یک چارچوب واحد MCTS ادغام می‌کند و به نرخ موفقیت ۹۲.۷٪ در HumanEval با GPT-4 دست می‌یابد. برای دفترکل‌های Beancount مبتنی بر git، الزام بازگشت به حالت قبل که محدودیت LATS در محیط‌های عملیاتی است، به سادگی برآورده می‌شود.

AILLMMachine LearningAutomationPlain-Text AccountingDecision-making

درخت افکار: حل مسئله آگاهانه با جستجوی مدل‌های زبانی بزرگ

درخت افکار (ToT) با سازماندهی استدلال مدل زبانی در یک درخت جستجوی شاخه‌ای همراه با هرس و بازگشت به عقب، در بازی ۲۴ به دقت ۷۴٪ در مقابل ۴٪ برای CoT استاندارد GPT-4 دست می‌یابد؛ این موضوع پیامدهای مستقیمی برای طبقه‌بندی مالی چندمرحله‌ای و بهینه‌سازی مالیاتی در جریان‌های کاری Beancount دارد.

همه چیز درباره Decision-making

تعویق آگاه از عدم قطعیت برای عامل‌های LLM: چه زمانی از مدل‌های کوچک به بزرگ ارجاع دهیم

InvestorBench: ارزیابی مدل‌های زبانی بزرگ در تصمیم‌گیری‌های معاملاتی مالی

LATS: جستجوی درختی عامل زبانی — استدلال، عمل و برنامه‌ریزی در یک چارچوب واحد

درخت افکار: حل مسئله آگاهانه با جستجوی مدل‌های زبانی بزرگ

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی