پرش به محتوای اصلی
Financial Literacy

همه چیز درباره Financial Literacy

2 مقاله
Research on financial knowledge representation and LLM competency

امتیاز ۲.۳ درصدی مدل‌های زبانی بزرگ در تولید DSL بین‌کنت: بنچمارک LLMFinLiteracy

بنچمارک LLMFinLiteracy نشان می‌دهد که پنج مدل وزن-باز با حدود ۷ میلیارد پارامتر، تنها در ۲.۳٪ مواقع تراکنش‌های Beancount کاملاً صحیح تولید می‌کنند؛ شکست‌هایی که عمدتاً در استدلال حسابداری — و نه نحو — ریشه دارند و به بازخورد کامپایلر در حلقه به عنوان عنصر حیاتی مفقوده برای عامل‌های نوشتاری قابل اعتماد اشاره می‌کنند.

بنچ‌مارک FinMaster: چرا مدل‌های زبانی بزرگ در سواد مالی امتیاز ۹۶٪ اما در تولید صورت‌های مالی امتیاز ۳٪ کسب می‌کنند

بنچ‌مارک FinMaster (arXiv:2505.13533) مدل‌های o3-mini، Claude 3.7 Sonnet و DeepSeek-V3 را در ۱۸۳ وظیفه مالی ارزیابی می‌کند—و نشان می‌دهد که این مدل‌ها در سواد مالی امتیاز ۹۶٪ کسب می‌کنند اما در تولید صورت‌های مالی به ۳٪ سقوط می‌کنند، و در وظایف مشاوره‌ای چند مرحله‌ای به دلیل انتشار خطا، ۲۱ واحد از دقت خود را از دست می‌دهند.