8 پست با برچسب "Analytics"

AILLMMachine LearningFraud DetectionData ScienceBeancountAnalytics

بررسی جامع تشخیص ناهنجاری با مدل‌های زبانی بزرگ (NAACL 2025): طبقه‌بندی قوی، غیبت پوشش داده‌های جدولی

خوانشی نقادانه از بررسی جامع شو و دینگ در NAACL 2025 درباره تشخیص ناهنجاری و OOD مبتنی بر LLM؛ در حالی که طبقه‌بندی تشخیص در برابر تولید پابرجاست، اما غیبت تقریباً کامل پوشش داده‌های جدولی به این معناست که متخصصان هوش مصنوعی مالی باید خودشان بینش‌ها را از مدل‌های بینایی استخراج کنند.

LLMAIMachine LearningAnalyticsFinancial ReportingData ScienceReconciliation

Fin-RATE: شکست مدل‌های زبانی بزرگ در تحلیل مالی دوره‌ای و بین-موجودیتی

بنچ‌مارک Fin-RATE عملکرد ۱۷ مدل زبانی بزرگ را روی ۷۵۰۰ جفت پرسش و پاسخ تخصصی از ۲۴۷۲ سند SEC ارزیابی می‌کند. نتایج نشان‌دهنده سقوط ۱۸.۶۰ درصدی دقت در ردیابی طولی و افت ۵۴ امتیازی مدل Fin-R1 در وظایف بین-موجودیتی است؛ در حالی که گلوگاه اصلی نه مدل پایه، بلکه خط لوله بازیابی اطلاعات است.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

مقاله TACL 2024 توسط لیو و همکاران نشان می‌دهد که مدل‌های زبانی بزرگ در اطلاعاتی که در میان زمینه‌های طولانی پنهان شده‌اند، تا ۲۰ امتیاز ضعیف‌تر عمل می‌کنند — یک افت عملکرد U-شکل که بر تمام مدل‌های آزمایش‌شده از جمله Claude-1.3-100K تأثیر می‌گذارد — با پیامدهای ملموس برای نحوه ترتیب‌بندی قطعات بازیابی شده در خط لوله‌های RAG در کاربردهای مالی و حسابداری.

LLMAIMachine LearningData ScienceFraud DetectionAnalyticsAnomaly Detection

بنچ‌مارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت

بنچ‌مارک AD-LLM مدل‌های GPT-4o و Llama 3.1 8B را در سه نقشِ تشخیص‌دهنده بدون آموزش، تقویت‌کننده داده و مشاور انتخاب مدل روی پنج مجموعه داده NLP ارزیابی می‌کند؛ GPT-4o به امتیاز AUROC بین ۰.۹۳ تا ۰.۹۹ دست می‌یابد، اما انتخاب مدل مبتنی بر LLM همچنان غیرقابل اعتماد است که پیامدهای مستقیمی برای هوش مصنوعی در حسابرسی مالی دارد.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingAnalytics

τ-bench: سنجش قابلیت اطمینان عامل‌های هوش مصنوعی در دامنه‌های واقعی استفاده از ابزار

بنچمارک τ-bench نشان می‌دهد که مدل‌های زبانی بزرگ برتر مانند Claude 3.5 Sonnet در وظایف خدمات مشتری خرده‌فروشی از pass@1 معادل ۰.۶۹۲ به pass@4 معادل ۰.۴۶۲ سقوط می‌کنند — یک شکاف در ثبات عملکرد که پیامدهای مستقیمی برای هر عامل ثبت داده (write-back) فعال در دفتر کل Beancount دارد.

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: پرسش و پاسخ مالی چند‌نوبتی و شکاف ۲۱ امتیازی بین مدل‌ها و متخصصان انسانی

ConvFinQA (EMNLP 2022) بنچ‌مارک FinQA را به گفتگوهای چند‌نوبتی درباره گزارش‌های سود S&P 500 گسترش می‌دهد و نشان می‌دهد که بهترین مدل تنظیم‌شده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست می‌یابد؛ این رقم در گفتگوهای ترکیبی چند‌وجهی، جایی که مدل‌ها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش می‌یابد.

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: چرا RAG مبتنی بر ذخیره‌ساز برداری در اسناد مالی واقعی شکست می‌خورد

FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پرونده‌های واقعی SEC ارزیابی می‌کند؛ RAG با ذخیره‌ساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح می‌دهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ می‌رسد — این نشان می‌دهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

خودسازگاری: نمونه‌برداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش می‌دهد

خودسازگاری جایگزین رمزگشایی حریصانه زنجیره فکر با رای اکثریت بر روی N مسیر استدلال نمونه‌برداری شده می‌شود — که دقت GPT-3 را در GSM8K بدون هیچ تنظیم دقیق ۱۷.۹ واحد درصد افزایش می‌دهد — و مستقیماً در محاسبات مالی چندمرحله‌ای که در آن‌ها یک رمزگشایی واحد مدل زبانی غیرقابل اعتماد است، کاربرد دارد.

همه چیز درباره Analytics

بررسی جامع تشخیص ناهنجاری با مدل‌های زبانی بزرگ (NAACL 2025): طبقه‌بندی قوی، غیبت پوشش داده‌های جدولی

Fin-RATE: شکست مدل‌های زبانی بزرگ در تحلیل مالی دوره‌ای و بین-موجودیتی

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

بنچ‌مارک AD-LLM: مدل GPT-4o به امتیاز AUROC بالای ۰.۹۳ در تشخیص ناهنجاری متنی بدون آموزش (Zero-Shot) دست یافت

τ-bench: سنجش قابلیت اطمینان عامل‌های هوش مصنوعی در دامنه‌های واقعی استفاده از ابزار

ConvFinQA: پرسش و پاسخ مالی چند‌نوبتی و شکاف ۲۱ امتیازی بین مدل‌ها و متخصصان انسانی

FinanceBench: چرا RAG مبتنی بر ذخیره‌ساز برداری در اسناد مالی واقعی شکست می‌خورد

خودسازگاری: نمونه‌برداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش می‌دهد

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی