پرش به محتوای اصلی
Financial Statements

همه چیز درباره Financial Statements

3 مقاله
Balance sheet, income statement, and cash-flow generation research

MultiHiertt: بنچ‌مارک استدلال عددی بر روی جداول مالی چند‌سلسله‌مراتبی

مجموعه داده MultiHiertt (ACL 2022) شامل ۱۰,۴۴۰ جفت پرسش و پاسخ از گزارش‌های مالی واقعی با میانگین ۳.۸۹ جدول سلسله‌مراتبی در هر گزارش است؛ مدل‌های پیشرفته امتیاز F1 ۳۸٪ را در مقابل ۸۷٪ برای انسان‌ها کسب کردند، با جریمه ۱۵ امتیازی برای پرسش‌های چند‌جدولی — که شکاف بازیابی را که هوش مصنوعی مالی باید پر کند، کمی‌سازی می‌کند.

FinanceBench: چرا RAG مبتنی بر ذخیره‌ساز برداری در اسناد مالی واقعی شکست می‌خورد

FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پرونده‌های واقعی SEC ارزیابی می‌کند؛ RAG با ذخیره‌ساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح می‌دهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ می‌رسد — این نشان می‌دهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.

بنچ‌مارک FinMaster: چرا مدل‌های زبانی بزرگ در سواد مالی امتیاز ۹۶٪ اما در تولید صورت‌های مالی امتیاز ۳٪ کسب می‌کنند

بنچ‌مارک FinMaster (arXiv:2505.13533) مدل‌های o3-mini، Claude 3.7 Sonnet و DeepSeek-V3 را در ۱۸۳ وظیفه مالی ارزیابی می‌کند—و نشان می‌دهد که این مدل‌ها در سواد مالی امتیاز ۹۶٪ کسب می‌کنند اما در تولید صورت‌های مالی به ۳٪ سقوط می‌کنند، و در وظایف مشاوره‌ای چند مرحله‌ای به دلیل انتشار خطا، ۲۱ واحد از دقت خود را از دست می‌دهند.