امتیاز ۲.۳ درصدی مدلهای زبانی بزرگ در تولید DSL بینکنت: بنچمارک LLMFinLiteracy
بنچمارک LLMFinLiteracy نشان میدهد که پنج مدل وزن-باز با حدود ۷ میلیارد پارامتر، تنها در ۲.۳٪ مواقع تراکنشهای Beancount کاملاً صحیح تولید میکنند؛ شکستهایی که عمدتاً در استدلال حسابداری — و نه نحو — ریشه دارند و به بازخورد کامپایلر در حلقه به عنوان عنصر حیاتی مفقوده برای عاملهای نوشتاری قابل اعتماد اشاره میکنند.
