پرش به محتوای اصلی

Bean Labs Research Log

PAL: مدل‌های زبانی به کمک برنامه برای محاسبات مالی قابل اطمینان

PAL (مدل‌های زبانی به کمک برنامه) با واگذاری محاسبات به یک مفسر پایتون، به افزایش دقت ۳۸ واحد درصدی نسبت به زنجیره اندیشه در وظایف سنگین محاسباتی دست می‌یابد — معماری‌ای که مستقیماً برای پرس‌وجوهای دفتر کل Beancount و هوش مصنوعی مالی قابل اطمینان کاربرد دارد.

Latest articles

آیا مدل‌های زبانی بزرگ می‌توانند داده‌های جدولی را تحلیل کنند؟ چهار بنچمارک درباره هوش مصنوعی مالی چه می‌گویند

چهار بنچمارک سال‌های ۲۰۲۴-۲۰۲۵ نشان می‌دهند که GPT-4 در پاسخ‌دهی به سوالات جداول واقعی امتیاز ۴۲٪ را در مقابل ۸۶٪ انسان‌ها کسب کرده است، در حالی که در تجمیع‌های پیچیده این عدد به ۱۹.۶٪ سقوط می‌کند — و نحو بومی Beancount در بدترین رتبه سلسله‌مراتب سریال‌سازی برای ورودی مدل‌های زبانی قرار دارد.

هوش مصنوعی قانون‌مند برای عوامل حسابداری: RLAIF، قوانین خط‌مشی و ریسک‌های گودهارت

مقاله هوش مصنوعی قانون‌مند آنتروپیک (بای و همکاران، ۲۰۲۲) مدل‌های زبانی بزرگ را آموزش می‌دهد تا با استفاده از بازخوردهای تولید شده توسط هوش مصنوعی به جای برچسب‌های آسیب انسانی، از قوانین پیروی کنند. این گزارش تحقیقاتی بررسی می‌کند که چگونه خط لوله نقد-بازبینی-ترجیح RLAIF بر ایمنی بازنویسی برای عوامل خودکار دفترکل Beancount منطبق می‌شود — و زمانی که «قانون اساسی» به جای مجموعه‌ای از قوانین اخلاقی، یک چارت حساب‌ها باشد، گودهارتینگ، شکست‌های کالیبراسیون و ریسک‌های استفاده دوگانه چگونه به نظر می‌رسند.

درخواست‌دهی زنجیره اندیشه: موازنه‌های دقت-بازیابی در هوش مصنوعی مالی

یک بررسی دقیق بر روی مقاله زنجیره اندیشه سال ۲۰۲۲ Wei و همکاران و پیامدهای آن برای هوش مصنوعی مالی — چرا CoT دقت را افزایش می‌دهد اما ممکن است بازیابی در شناسایی رویدادهای نادر را کاهش دهد، چرا آستانه مقیاس برای عامل‌های عملیاتی مهم است، و تیم‌های مالی که با استفاده از LLMها سیستم می‌سازند باید به چه مواردی توجه کنند.

PHANTOM (NeurIPS 2025): سنجش تشخیص توهم مدل‌های زبانی بزرگ در اسناد مالی

PHANTOM (NeurIPS 2025) اولین بنچ‌مارک برای سنجش تشخیص توهم مدل‌های زبانی بزرگ (LLM) در گزارش‌های واقعی SEC با طول زمینه تا ۳۰,۰۰۰ توکن است. Qwen3-30B-A3B-Thinking با F1=0.882 پیشتاز است؛ مدل‌های 7B امتیازی نزدیک به حدس تصادفی دارند — که پیامدهای مستقیمی برای عوامل حسابداری خودکار دارد.

بنچ‌مارک FinMaster: چرا مدل‌های زبانی بزرگ در سواد مالی امتیاز ۹۶٪ اما در تولید صورت‌های مالی امتیاز ۳٪ کسب می‌کنند

بنچ‌مارک FinMaster (arXiv:2505.13533) مدل‌های o3-mini، Claude 3.7 Sonnet و DeepSeek-V3 را در ۱۸۳ وظیفه مالی ارزیابی می‌کند—و نشان می‌دهد که این مدل‌ها در سواد مالی امتیاز ۹۶٪ کسب می‌کنند اما در تولید صورت‌های مالی به ۳٪ سقوط می‌کنند، و در وظایف مشاوره‌ای چند مرحله‌ای به دلیل انتشار خطا، ۲۱ واحد از دقت خود را از دست می‌دهند.

ReAct: هم‌افزایی استدلال و عمل در مدل‌های زبانی

مقاله ReAct (Yao و همکاران، ICLR 2023) استدلال زنجیره اندیشه را با اقدامات ابزاری در یک مسیر واحد ادغام می‌کند و در تأیید واقعیت و یادگیری تقلیدی در وظایف تجسم‌یافته تا ۳۴ درصد از CoT خالص بهتر عمل می‌کند. این تحلیل به بررسی حالت‌های شکست مقاله — حواس‌پرتی ناشی از جستجو و خطاهای انباشته — و معنای آن‌ها برای عامل‌های خودمختار که در دفترکل‌های Beancount می‌نویسند، می‌پردازد.

Toolformer: استفاده از ابزار بصورت خود-نظارتی و محدودیت‌های آن برای هوش مصنوعی مالی

بررسی دقیق Toolformer (Meta AI, NeurIPS 2023): چگونه آموزش خود-نظارتی فیلتر شده با پرپلکسیتی به یک مدل ۶.۷ میلیارد پارامتری یاد می‌دهد تا APIهای خارجی را فراخوانی کند، جایی که در بنچمارک‌های محاسباتی از GPT-3 175B پیشی می‌گیرد، و چرا معماری تک‌مرحله‌ای آن نمی‌تواند از فراخوانی‌های زنجیره‌ای ابزار مورد نیاز برای عملیات دفترداری ساختاریافته پشتیبانی کند.

FinBen: ارزیابی مقایسه‌ای مدل‌های زبانی بزرگ در ۳۶ وظیفه مالی — پیامدهایی برای هوش مصنوعی در حسابداری

FinBen ۱۵ مدل زبانی بزرگ را در ۳۶ مجموعه داده مالی در NeurIPS 2024 ارزیابی می‌کند و نشان می‌دهد که GPT-4 در پرسش و پاسخ عددی به تطابق دقیق ۰.۶۳ و در پیش‌بینی حرکت سهام به ۰.۵۴ می‌رسد که نزدیک به شانس است. در اینجا معنای این اعداد برای ساخت یک عامل حسابداری قابل اعتماد در دفترکل Beancount آورده شده است.