40 پست با برچسب "Data Science"

AILLMMachine LearningFinanceFinancial ReportingData ScienceAnalytics

ConvFinQA: پرسش و پاسخ مالی چند‌نوبتی و شکاف ۲۱ امتیازی بین مدل‌ها و متخصصان انسانی

ConvFinQA (EMNLP 2022) بنچ‌مارک FinQA را به گفتگوهای چند‌نوبتی درباره گزارش‌های سود S&P 500 گسترش می‌دهد و نشان می‌دهد که بهترین مدل تنظیم‌شده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست می‌یابد؛ این رقم در گفتگوهای ترکیبی چند‌وجهی، جایی که مدل‌ها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش می‌یابد.

AIMachine LearningLLMFinanceFinancial ReportingData Science

TAT-QA: معیار ارزیابی پرسش و پاسخ ترکیبی جدول-متن برای استدلال در گزارش‌های سالانه مالی

TAT-QA یک معیار ارزیابی با ۱۶,۵۵۲ پرسش روی متن‌های گزارش مالی ترکیبی (جدول به علاوه متن) است که نشان داد اتکا به شواهد — و نه محاسبات ریاضی — گلوگاه اصلی در هوش مصنوعی مالی است؛ تا سال ۲۰۲۴، مدل‌های زبانی ۷ میلیاردی تنظیم‌شده به دقت F1 ۸۳٪ رسیدند و بیشتر شکاف با سقف ۹۱ درصدی انسانی را پر کردند.

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: چرا RAG مبتنی بر ذخیره‌ساز برداری در اسناد مالی واقعی شکست می‌خورد

FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پرونده‌های واقعی SEC ارزیابی می‌کند؛ RAG با ذخیره‌ساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح می‌دهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ می‌رسد — این نشان می‌دهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.

AILLMMachine LearningAutomationFinanceData ScienceAnalytics

خودسازگاری: نمونه‌برداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش می‌دهد

خودسازگاری جایگزین رمزگشایی حریصانه زنجیره فکر با رای اکثریت بر روی N مسیر استدلال نمونه‌برداری شده می‌شود — که دقت GPT-3 را در GSM8K بدون هیچ تنظیم دقیق ۱۷.۹ واحد درصد افزایش می‌دهد — و مستقیماً در محاسبات مالی چندمرحله‌ای که در آن‌ها یک رمزگشایی واحد مدل زبانی غیرقابل اعتماد است، کاربرد دارد.

AILLMMachine LearningBeancountFinanceAutomationData Science

PAL: مدل‌های زبانی به کمک برنامه برای محاسبات مالی قابل اطمینان

PAL (مدل‌های زبانی به کمک برنامه) با واگذاری محاسبات به یک مفسر پایتون، به افزایش دقت ۳۸ واحد درصدی نسبت به زنجیره اندیشه در وظایف سنگین محاسباتی دست می‌یابد — معماری‌ای که مستقیماً برای پرس‌وجوهای دفتر کل Beancount و هوش مصنوعی مالی قابل اطمینان کاربرد دارد.

AILLMBeancountData SciencePlain-Text AccountingAutomationFinance

آیا مدل‌های زبانی بزرگ می‌توانند داده‌های جدولی را تحلیل کنند؟ چهار بنچمارک درباره هوش مصنوعی مالی چه می‌گویند

چهار بنچمارک سال‌های ۲۰۲۴-۲۰۲۵ نشان می‌دهند که GPT-4 در پاسخ‌دهی به سوالات جداول واقعی امتیاز ۴۲٪ را در مقابل ۸۶٪ انسان‌ها کسب کرده است، در حالی که در تجمیع‌های پیچیده این عدد به ۱۹.۶٪ سقوط می‌کند — و نحو بومی Beancount در بدترین رتبه سلسله‌مراتب سریال‌سازی برای ورودی مدل‌های زبانی قرار دارد.

AILLMMachine LearningData ScienceFinanceAutomationFraud Detection

درخواست‌دهی زنجیره اندیشه: موازنه‌های دقت-بازیابی در هوش مصنوعی مالی

یک بررسی دقیق بر روی مقاله زنجیره اندیشه سال ۲۰۲۲ Wei و همکاران و پیامدهای آن برای هوش مصنوعی مالی — چرا CoT دقت را افزایش می‌دهد اما ممکن است بازیابی در شناسایی رویدادهای نادر را کاهش دهد، چرا آستانه مقیاس برای عامل‌های عملیاتی مهم است، و تیم‌های مالی که با استفاده از LLMها سیستم می‌سازند باید به چه مواردی توجه کنند.

LLMAIMachine LearningFinanceFinancial ReportingTrustBeancountData Science

PHANTOM (NeurIPS 2025): سنجش تشخیص توهم مدل‌های زبانی بزرگ در اسناد مالی

PHANTOM (NeurIPS 2025) اولین بنچ‌مارک برای سنجش تشخیص توهم مدل‌های زبانی بزرگ (LLM) در گزارش‌های واقعی SEC با طول زمینه تا ۳۰,۰۰۰ توکن است. Qwen3-30B-A3B-Thinking با F1=0.882 پیشتاز است؛ مدل‌های 7B امتیازی نزدیک به حدس تصادفی دارند — که پیامدهای مستقیمی برای عوامل حسابداری خودکار دارد.

AILLMMachine LearningAutomationBeancountDevelopersData SciencePlain-Text Accounting

Toolformer: استفاده از ابزار بصورت خود-نظارتی و محدودیت‌های آن برای هوش مصنوعی مالی

بررسی دقیق Toolformer (Meta AI, NeurIPS 2023): چگونه آموزش خود-نظارتی فیلتر شده با پرپلکسیتی به یک مدل ۶.۷ میلیارد پارامتری یاد می‌دهد تا APIهای خارجی را فراخوانی کند، جایی که در بنچمارک‌های محاسباتی از GPT-3 175B پیشی می‌گیرد، و چرا معماری تک‌مرحله‌ای آن نمی‌تواند از فراخوانی‌های زنجیره‌ای ابزار مورد نیاز برای عملیات دفترداری ساختاریافته پشتیبانی کند.

AILLMMachine LearningFinanceForecastingData ScienceBeancount

FinBen: ارزیابی مقایسه‌ای مدل‌های زبانی بزرگ در ۳۶ وظیفه مالی — پیامدهایی برای هوش مصنوعی در حسابداری

FinBen ۱۵ مدل زبانی بزرگ را در ۳۶ مجموعه داده مالی در NeurIPS 2024 ارزیابی می‌کند و نشان می‌دهد که GPT-4 در پرسش و پاسخ عددی به تطابق دقیق ۰.۶۳ و در پیش‌بینی حرکت سهام به ۰.۵۴ می‌رسد که نزدیک به شانس است. در اینجا معنای این اعداد برای ساخت یک عامل حسابداری قابل اعتماد در دفترکل Beancount آورده شده است.

همه چیز درباره Data Science

ConvFinQA: پرسش و پاسخ مالی چند‌نوبتی و شکاف ۲۱ امتیازی بین مدل‌ها و متخصصان انسانی

TAT-QA: معیار ارزیابی پرسش و پاسخ ترکیبی جدول-متن برای استدلال در گزارش‌های سالانه مالی

FinanceBench: چرا RAG مبتنی بر ذخیره‌ساز برداری در اسناد مالی واقعی شکست می‌خورد

خودسازگاری: نمونه‌برداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش می‌دهد

PAL: مدل‌های زبانی به کمک برنامه برای محاسبات مالی قابل اطمینان

آیا مدل‌های زبانی بزرگ می‌توانند داده‌های جدولی را تحلیل کنند؟ چهار بنچمارک درباره هوش مصنوعی مالی چه می‌گویند

درخواست‌دهی زنجیره اندیشه: موازنه‌های دقت-بازیابی در هوش مصنوعی مالی

PHANTOM (NeurIPS 2025): سنجش تشخیص توهم مدل‌های زبانی بزرگ در اسناد مالی

Toolformer: استفاده از ابزار بصورت خود-نظارتی و محدودیت‌های آن برای هوش مصنوعی مالی

FinBen: ارزیابی مقایسه‌ای مدل‌های زبانی بزرگ در ۳۶ وظیفه مالی — پیامدهایی برای هوش مصنوعی در حسابداری

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی