65 پست با برچسب "Beancount"

AILLMSecurityAutomationBeancountComplianceTrust

استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP

پژوهشگران دانشگاه CMU و NC State با استفاده از آنالیز فرآیند تئوری سیستم (STPA) و نسخه ارتقا یافته پروتکل کانتکست مدل (MCP)، روشی را برای استخراج مشخصات ایمنی رسمی جهت استفاده عامل‌های LLM از ابزارها پیشنهاد داده‌اند. تایید مبتنی بر Alloy در یک مطالعه موردی زمان‌بندی تقویم، عدم وجود جریان‌های ناامن را اثبات می‌کند.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو

پروژه GraphRAG مایکروسافت یک گراف موجودیت با بخش‌بندی لایدن بر روی یک پیکره متنی ایجاد می‌کند و خلاصه انجمن‌ها را از پیش محاسبه می‌نماید تا به سوالات معنایی جهانی پاسخ دهد که RAG برداری استاندارد قادر به مدیریت آن‌ها نیست — اما یک حسابرسی سوگیری در سال ۲۰۲۵ نشان می‌دهد که نرخ پیروزی ۷۲ تا ۸۳ درصدی آن پس از اصلاح آثار موقعیت و طول در ارزیابی‌های مبتنی بر مدل زبانی به عنوان داور (LLM-as-judge)، فرو می‌پاشد.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: نمرات زیر ۱۴٪ مدل‌های زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL

FinAuditing تعداد ۱۳ مدل زبانی بزرگ را در حالت صفر-نمونه روی ۱,۱۰۲ نمونه واقعی از گزارش‌های SEC XBRL آزمایش می‌کند؛ بالاترین نمرات ۱۳.۸۶٪ در تأیید ریاضیات مالی و ۱۲.۴۲٪ در بازیابی مفاهیم است—نتایجی که مستقیماً مرزهای اعتماد به ابزارهای حسابداری هوش مصنوعی را برای خودکارسازی بدون ابزارهای خارجی مشخص می‌کند.

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست می‌دهد

StructRAG (ICLR 2025) هر پرسش را قبل از استدلال، به یک نوع ساختار مناسب وظیفه — جدول، گراف، کاتالوگ، الگوریتم یا تکه متن — هدایت می‌کند. این روش در بنچمارک Loong ۲۸ امتیاز بالاتر از GraphRAG کسب کرده و ۲۲ برابر سریع‌تر اجرا می‌شود، در حالی که مسیریاب آموزش‌دیده با DPO به تنهایی مسئول ۱۵ امتیاز از بهبود دقت است.

AIMachine LearningLLMData ScienceBeancountFinanceAutomation

اطلس: پیش‌آموزش مشترک بازیاب-خوانشگر مدل‌های زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست می‌دهد

اطلس (JMLR 2023) با استفاده از تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست می‌یابد و مدل PaLM 540B را با ۳ واحد اختلاف و تنها با ۱۱ میلیارد پارامتر شکست می‌دهد. این کار از طریق پیش‌آموزش مشترک یک بازیاب متراکم مبتنی بر Contriever با یک خوانشگر Fusion-in-Decoder مبتنی بر T5 انجام شده است. این تحلیل محدودیت‌های دقت بازیابی، هزینه‌های زیرساختی شاخص ۵۸۷ گیگابایتی و پیامدهای آن برای سیستم‌های پرسش و پاسخ دفتر کل Beancount را پوشش می‌دهد.

AIMachine LearningLLMBeancountData SciencePlain-Text Accounting

Fusion-in-Decoder: چگونه بازیابی چند-متنی پرسش و پاسخ مولد را بهبود می‌بخشد

معماری FiD ابداعی ایزاکارد و گریو، متون بازیابی شده را به صورت مستقل رمزگذاری کرده و سپس آن‌ها را در رمزگشا (decoder) ادغام می‌کند و در آزمون‌های NQ و TriviaQA بین ۴ تا ۱۱ امتیاز بهتر از RAG-Sequence عمل می‌کند. این پست به بررسی این طراحی و پیامدهای آن برای پرسش و پاسخ در دفتر کل Beancount می‌پردازد، جایی که سنتز چندین ورودی در تراکنش‌ها یک روال معمول است.

AILLMMachine LearningAutomationBeancountTransaction Validation

مباحثه چندعاملی مدل‌های زبانی بزرگ: دستاوردهای واقعی در دقت، رایانش کنترل‌نشده و توهم جمعی

بررسی دقیق مقاله مباحثه چندعاملی Du و همکاران در ICML 2024 — که گزارشگر ۱۴.۸ واحد افزایش دقت در محاسبات است — در کنار ردیه‌های سال ۲۰۲۵ که نشان می‌دهد تک‌عامل‌ها با بودجه مشابه با عملکرد مباحثه برابری می‌کنند، و تحلیلی بر اینکه چرا توهم جمعی (۶۵٪ از شکست‌های مباحثه) خطرات خاصی برای ثبت‌های دفتر کل به کمک هوش مصنوعی ایجاد می‌کند.

AIMachine LearningForecastingData ScienceLLMFinanceBeancount

مدل‌های زبانی بزرگ برای پیش‌بینی سری‌های زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی

یک مقاله منتخب (Spotlight) در NeurIPS 2024 سه روش پیش‌بینی سری‌های زمانی مبتنی بر LLM شامل OneFitsAll، Time-LLM و CALF را مورد بررسی قرار داده و دریافت که حذف مدل زبانی در اکثر موارد دقت را بهبود می‌بخشد و سرعت آموزش را تا ۱۳۸۳ برابر افزایش می‌دهد. برای کاربردهای هوش مصنوعی مالی مانند پیش‌بینی موجودی Beancount، مدل‌های سبک و تخصصی همواره مدل‌های تغییر کاربری یافته LLM را شکست می‌دهند.

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود

مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدل‌های زبانی ۷ میلیارد پارامتری نشان می‌دهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست می‌یابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف می‌شود — با پیامدهای مستقیم برای طراحی عامل‌های Beancount و هر سیستمی که به به‌روزرسانی‌های مکرر دانش نیاز دارد.

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحله‌ای

روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق می‌کند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تک‌مرحله‌ای دست می‌یابد؛ این روش نشان می‌دهد که با استراتژی بازیابی صحیح، یک مدل 3B می‌تواند بر GPT-3 175B غلبه کند.

همه چیز درباره Beancount

استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP

GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو

FinAuditing: نمرات زیر ۱۴٪ مدل‌های زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL

StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست می‌دهد

اطلس: پیش‌آموزش مشترک بازیاب-خوانشگر مدل‌های زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست می‌دهد

Fusion-in-Decoder: چگونه بازیابی چند-متنی پرسش و پاسخ مولد را بهبود می‌بخشد

مباحثه چندعاملی مدل‌های زبانی بزرگ: دستاوردهای واقعی در دقت، رایانش کنترل‌نشده و توهم جمعی

مدل‌های زبانی بزرگ برای پیش‌بینی سری‌های زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی

تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود

IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحله‌ای

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی