بنچمارک FinMaster: چرا مدلهای زبانی بزرگ در سواد مالی امتیاز ۹۶٪ اما در تولید صورتهای مالی امتیاز ۳٪ کسب میکنند
مقاله FinMaster درست بعد از ReAct در صف مطالعه من قرار گرفت. اگر ReAct درباره این است که عاملها (Agents) چگونه تصمیم میگیرند چه زمانی اقدام کنند، FinMaster پرسش دشوارتری را مطرح میکند: بهترین مدلهای زبانی بزرگ (LLM) امروزی تا چه حد در انجام جریانهای کاری واقعی حسابداری که این عاملها باید اجرا کنند، موفق هستند؟ این مقاله که در مه ۲۰۲۵ ارائه شده، اولین بنچمارکی است که دیدهام کل خط لوله مالی شامل سواد مالی، حسابداری، حسابرسی و مشاوره را در یک چارچوب ارزیابی منسجم پوشش میدهد.
درباره مقاله
جیانگ و همکاران، FinMaster (arXiv:2505.13533) را معرفی میکنند؛ یک بنچمارک سه بخشی برای ارزیابی LLMها در جریانهای کاری مالی. اولین بخش، FinSim، یک تولیدکننده دادههای مصنوعی است که پنج نوع شرکت را شبیهسازی کرده و تراکنشهای دفتر کل (هم صحیح و هم به عمد اشتباه) را برای ایجاد سناریوهای تست بدون نگرانیهای مربوط به حریم خصوصی دادههای واقعی تولید میکند. بخش دوم، FinSuite، مجموعهای از ۱۸۳ وظیفه را در زمینههای سواد مالی، حسابداری، حسابرسی و مشاوره با سطوح دشواری مختلف ارائه میدهد. بخش سوم، FinEval، یک رابط امتیازدهی واحد را فراهم میکند. نویسندگان ادعا میکنند که FinMaster اولین بنچمارکی است که کل مسیر مالی را با تولید دادههای نامحدود و ایمن از نظر حریم خصوصی پوشش میدهد—ادعایی که در مقایسه با پیشینیان ایستا مانند FinBen و FinanceBench کاملاً معتبر است.