Bean Labs Research Log

AILLMAutomationMachine LearningBeancountDecision-makingPlain-Text AccountingTrust

تعویق آگاه از عدم قطعیت برای عامل‌های LLM: چه زمانی از مدل‌های کوچک به بزرگ ارجاع دهیم

سیستم ReDAct به‌طور پیش‌فرض یک مدل کوچک را اجرا می‌کند و تنها زمانی به یک مدل گران‌قیمت ارجاع می‌دهد که پرپلکسیتی در سطح توکن نشان‌دهنده عدم قطعیت باشد. این روش ضمن حفظ یا فراتر رفتن از دقت GPT-5.2، باعث ۶۴٪ صرفه‌جویی در هزینه‌ها می‌شود؛ الگویی که مستقیماً برای عامل‌های دسته‌بندی تراکنش در Beancount قابل استفاده است.

AIOpen SourceAutomationLLMDevelopersBeancountPlain-Text AccountingMachine Learning

OpenHands: پلتفرم باز برای عامل‌های نرم‌افزاری هوش مصنوعی و معنای آن برای اتوماسیون مالی

OpenHands یک پلتفرم عامل با لایسنس MIT و محیط ایزوله Docker است که در آن CodeAct به امتیاز ۲۶٪ در SWE-Bench Lite دست یافته است؛ بنچمارکی تأمل‌برانگیز که نشان می‌دهد عامل‌های هوش مصنوعی امروزه چه کارهایی را می‌توانند با اطمینان انجام دهند و چرا اولین استقرارهای مالی مولد باید به جای خودمختاری، دارای محدوده‌ی دقیق باشند.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: شکست مدل‌های زبانی بزرگ در تحلیل مالی دوره‌ای و بین-موجودیتی

بنچ‌مارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی می‌کند. نتایج نشان‌دهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.

AILLMMachine LearningFinanceBeancountData ScienceFinancial Reporting

FinDER: پرس‌وجوهای واقعی تحلیل‌گران شکاف بازخوانی ۷۴ درصدی را در RAG مالی فاش می‌کنند

بنچمارک FinDER سیستم RAG را بر روی ۵,۷۰۳ پرس‌وجوی واقعی تحلیل‌گران صندوق‌های پوشش ریسک در برابر پرونده‌های 10-K شاخص S&P 500 محک می‌زند؛ E5-Mistral تنها ۲۵.۹۵٪ بازخوانی بافتار را به دست می‌آورد و پرس‌وجوهای پر از اختصار باعث کاهش ۸.۲ واحدی در دقت می‌شوند — شواهدی بر اینکه عادی‌سازی پرس‌وجو، و نه جاسازی‌های بهتر، اولین راه حل برای خط لوله‌های هوش مصنوعی مالی است.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

مقاله TACL 2024 توسط لیو و همکاران نشان می‌دهد که مدل‌های زبانی بزرگ در اطلاعاتی که در میان زمینه‌های طولانی پنهان شده‌اند، تا ۲۰ امتیاز ضعیف‌تر عمل می‌کنند — یک افت عملکرد U-شکل که بر تمام مدل‌های آزمایش‌شده از جمله Claude-1.3-100K تأثیر می‌گذارد — با پیامدهای ملموس برای نحوه ترتیب‌بندی قطعات بازیابی شده در خط لوله‌های RAG در کاربردهای مالی و حسابداری.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

بنچ‌مارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت

بنچ‌مارک AD-LLM مدل‌های GPT-4o و Llama 3.1 8B را در سه نقشِ تشخیص‌دهنده بدون آموزش، تقویت‌کننده داده و مشاور انتخاب مدل روی پنج مجموعه داده NLP ارزیابی می‌کند؛ GPT-4o به امتیاز AUROC بین ۰.۹۳ تا ۰.۹۹ دست می‌یابد، اما انتخاب مدل مبتنی بر LLM همچنان غیرقابل اعتماد است که پیامدهای مستقیمی برای هوش مصنوعی در حسابرسی مالی دارد.

LLMAIMachine LearningFraud DetectionData ScienceAnomaly DetectionBeancount

CausalTAD: ترتیب‌بندی علّی ستون‌ها برای تشخیص ناهنجاری جدولی در مدل‌های زبانی بزرگ

CausalTAD تشخیص ناهنجاری جدولی مبتنی بر مدل‌های زبانی بزرگ را با مرتب‌سازی مجدد ستون‌های جدول برای رعایت وابستگی‌های علّی قبل از سریال‌سازی بهبود می‌بخشد و میانگین AUC-ROC را در معیارهای نوع مختلط نسبت به AnoLLM از ۰.۸۰۳ به ۰.۸۳۴ می‌رساند — که پیامدهای مستقیمی برای شناسایی ناهنجاری‌ها در داده‌های ساختاریافته دفتر کل دارد.

AILLMMachine LearningFraud DetectionData ScienceBeancountFinance

AnoLLM: تنظیم دقیق مدل‌های زبانی بزرگ (LLM) برای شناسایی ناهنجاری‌های جدولی در داده‌های مالی

AnoLLM (ICLR 2025) شناسایی ناهنجاری‌های جدولی را به عنوان تخمین چگالی مدل زبانی بازتعریف می‌کند — تنظیم دقیق روی ردیف‌های نرمال و امتیازدهی بر اساس لگاریتم احتمال منفی. این روش در مجموعه‌داده‌های تقلب با انواع ترکیبی از روش‌های کلاسیک بهتر عمل می‌کند، اما در داده‌های صرفاً عددی برتری خاصی ندارد؛ موضوعی که پیامدهای واقعی برای شناسایی ناهنجاری‌ها در ورودی‌های دفترکل Beancount دارد.

LLMBeancountPlain-Text AccountingAIMachine LearningFinancial LiteracyDouble-EntryTransaction Validation

امتیاز ۲.۳ درصدی مدل‌های زبانی بزرگ در تولید DSL بین‌کنت: بنچمارک LLMFinLiteracy

بنچمارک LLMFinLiteracy نشان می‌دهد که پنج مدل وزن-باز با حدود ۷ میلیارد پارامتر، تنها در ۲.۳٪ مواقع تراکنش‌های Beancount کاملاً صحیح تولید می‌کنند؛ شکست‌هایی که عمدتاً در استدلال حسابداری — و نه نحو — ریشه دارند و به بازخورد کامپایلر در حلقه به عنوان عنصر حیاتی مفقوده برای عامل‌های نوشتاری قابل اعتماد اشاره می‌کنند.

یافتن در میان: کالیبره کردن سوگیری توجه مکانی، RAG با بافت طولانی را بهبود می‌بخشد

Latest articles

تعویق آگاه از عدم قطعیت برای عامل‌های LLM: چه زمانی از مدل‌های کوچک به بزرگ ارجاع دهیم

OpenHands: پلتفرم باز برای عامل‌های نرم‌افزاری هوش مصنوعی و معنای آن برای اتوماسیون مالی

Fin-RATE: شکست مدل‌های زبانی بزرگ در تحلیل مالی دوره‌ای و بین-موجودیتی

FinDER: پرس‌وجوهای واقعی تحلیل‌گران شکاف بازخوانی ۷۴ درصدی را در RAG مالی فاش می‌کنند

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

بنچ‌مارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت

CausalTAD: ترتیب‌بندی علّی ستون‌ها برای تشخیص ناهنجاری جدولی در مدل‌های زبانی بزرگ

AnoLLM: تنظیم دقیق مدل‌های زبانی بزرگ (LLM) برای شناسایی ناهنجاری‌های جدولی در داده‌های مالی

امتیاز ۲.۳ درصدی مدل‌های زبانی بزرگ در تولید DSL بین‌کنت: بنچمارک LLMFinLiteracy

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی