پرش به محتوای اصلی

Bean Labs Research Log

یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود می‌بخشد

یک کالیبراسیون زمان استنتاج بدون نیاز به آموزش، سوگیری مکانی را از وزن‌های توجه مدل زبانی بزرگ کسر می‌کند و تا ۱۵ واحد درصد از دقت RAG را در زمانی که اسناد بازیابی شده در میانه بافت مدفون شده‌اند، بازیابی می‌کند — و این موضوع چه معنایی برای خط لوله‌های عامل‌های تخصصی مالی دارد.

Latest articles

تعویق آگاه از عدم قطعیت برای عامل‌های LLM: چه زمانی از مدل‌های کوچک به بزرگ ارجاع دهیم

سیستم ReDAct به‌طور پیش‌فرض یک مدل کوچک را اجرا می‌کند و تنها زمانی به یک مدل گران‌قیمت ارجاع می‌دهد که پرپلکسیتی در سطح توکن نشان‌دهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفه‌جویی در هزینه‌ها می‌شود؛ الگویی که مستقیماً برای عامل‌های دسته‌بندی تراکنش در Beancount قابل استفاده است.

OpenHands: پلتفرم باز برای عامل‌های نرم‌افزاری هوش مصنوعی و معنای آن برای اتوماسیون مالی

OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأمل‌برانگیز که نشان می‌دهد عامل‌های هوش مصنوعی امروزه چه کارهایی را می‌توانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدوده‌ی دقیق باشند.

Fin-RATE: شکست مدل‌های زبانی بزرگ در تحلیل مالی دوره‌ای و بین-موجودیتی

بنچ‌مارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی می‌کند. نتایج نشان‌دهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.

FinDER: پرس‌وجوهای واقعی تحلیل‌گران شکاف بازخوانی ۷۴ درصدی را در RAG مالی فاش می‌کنند

بنچمارک FinDER سیستم RAG را بر روی ۵,۷۰۳ پرس‌وجوی واقعی تحلیل‌گران صندوق‌های پوشش ریسک در برابر پرونده‌های 10-K شاخص S&P 500 محک می‌زند؛ E5-Mistral تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست می‌آورد و پرس‌وجوهای پر از اختصار باعث کاهش ۸.۲ واحدی در دقت می‌شوند — شواهدی بر اینکه عادی‌سازی پرس‌وجو، و نه جاسازی‌های بهتر، اولین راه حل برای خط لوله‌های هوش مصنوعی مالی است.

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

مقاله TACL 2024 توسط لیو و همکاران نشان می‌دهد که مدل‌های زبانی بزرگ در اطلاعاتی که در میان زمینه‌های طولانی پنهان شده‌اند، تا ۲۰ امتیاز ضعیف‌تر عمل می‌کنند — یک افت عملکرد U-شکل که بر تمام مدل‌های آزمایش‌شده از جمله Claude-1.3-100K تأثیر می‌گذارد — با پیامدهای ملموس برای نحوه ترتیب‌بندی قطعات بازیابی شده در خط لوله‌های RAG در کاربردهای مالی و حسابداری.

بنچ‌مارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت

بنچ‌مارک AD-LLM مدل‌های GPT-4o و Llama 3.1 8B را در سه نقشِ تشخیص‌دهنده بدون آموزش، تقویت‌کننده داده و مشاور انتخاب مدل روی پنج مجموعه داده NLP ارزیابی می‌کند؛ GPT-4o به امتیاز AUROC بین ۰.۹۳ تا ۰.۹۹ دست می‌یابد، اما انتخاب مدل مبتنی بر LLM همچنان غیرقابل اعتماد است که پیامدهای مستقیمی برای هوش مصنوعی در حسابرسی مالی دارد.

CausalTAD: ترتیب‌بندی علّی ستون‌ها برای تشخیص ناهنجاری جدولی در مدل‌های زبانی بزرگ

CausalTAD تشخیص ناهنجاری جدولی مبتنی بر مدل‌های زبانی بزرگ را با مرتب‌سازی مجدد ستون‌های جدول برای رعایت وابستگی‌های علّی قبل از سریال‌سازی بهبود می‌بخشد و میانگین AUC-ROC را در معیارهای نوع مختلط نسبت به AnoLLM از ۰.۸۰۳ به ۰.۸۳۴ می‌رساند — که پیامدهای مستقیمی برای شناسایی ناهنجاری‌ها در داده‌های ساختاریافته دفتر کل دارد.

AnoLLM: تنظیم دقیق مدل‌های زبانی بزرگ (LLM) برای شناسایی ناهنجاری‌های جدولی در داده‌های مالی

AnoLLM (ICLR 2025) شناسایی ناهنجاری‌های جدولی را به عنوان تخمین چگالی مدل زبانی بازتعریف می‌کند — تنظیم دقیق روی ردیف‌های نرمال و امتیازدهی بر اساس لگاریتم احتمال منفی. این روش در مجموعه‌داده‌های تقلب با انواع ترکیبی از روش‌های کلاسیک بهتر عمل می‌کند، اما در داده‌های صرفاً عددی برتری خاصی ندارد؛ موضوعی که پیامدهای واقعی برای شناسایی ناهنجاری‌ها در ورودی‌های دفترکل Beancount دارد.

امتیاز ۲.۳ درصدی مدل‌های زبانی بزرگ در تولید DSL بین‌کنت: بنچمارک LLMFinLiteracy

بنچمارک LLMFinLiteracy نشان می‌دهد که پنج مدل وزن-باز با حدود ۷ میلیارد پارامتر، تنها در ۲.۳٪ مواقع تراکنش‌های Beancount کاملاً صحیح تولید می‌کنند؛ شکست‌هایی که عمدتاً در استدلال حسابداری — و نه نحو — ریشه دارند و به بازخورد کامپایلر در حلقه به عنوان عنصر حیاتی مفقوده برای عامل‌های نوشتاری قابل اعتماد اشاره می‌کنند.