پرش به محتوای اصلی
Beancount

همه چیز درباره Beancount

65 مقاله
Beancount ledger format, tooling, and ecosystem research

استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP

پژوهشگران دانشگاه CMU و NC State با استفاده از آنالیز فرآیند تئوری سیستم (STPA) و نسخه ارتقا یافته پروتکل کانتکست مدل (MCP)، روشی را برای استخراج مشخصات ایمنی رسمی جهت استفاده عامل‌های LLM از ابزارها پیشنهاد داده‌اند. تایید مبتنی بر Alloy در یک مطالعه موردی زمان‌بندی تقویم، عدم وجود جریان‌های ناامن را اثبات می‌کند.

GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو

پروژه GraphRAG مایکروسافت یک گراف موجودیت با بخش‌بندی لایدن بر روی یک پیکره متنی ایجاد می‌کند و خلاصه انجمن‌ها را از پیش محاسبه می‌نماید تا به سوالات معنایی جهانی پاسخ دهد که RAG برداری استاندارد قادر به مدیریت آن‌ها نیست — اما یک حسابرسی سوگیری در سال ۲۰۲۵ نشان می‌دهد که نرخ پیروزی ۷۲ تا ۸۳ درصدی آن پس از اصلاح آثار موقعیت و طول در ارزیابی‌های مبتنی بر مدل زبانی به عنوان داور (LLM-as-judge)، فرو می‌پاشد.

FinAuditing: نمرات زیر ۱۴٪ مدل‌های زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL

FinAuditing تعداد ۱۳ مدل زبانی بزرگ را در حالت صفر-نمونه روی ۱,۱۰۲ نمونه واقعی از گزارش‌های SEC XBRL آزمایش می‌کند؛ بالاترین نمرات ۱۳.۸۶٪ در تأیید ریاضیات مالی و ۱۲.۴۲٪ در بازیابی مفاهیم است—نتایجی که مستقیماً مرزهای اعتماد به ابزارهای حسابداری هوش مصنوعی را برای خودکارسازی بدون ابزارهای خارجی مشخص می‌کند.

StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست می‌دهد

StructRAG (ICLR 2025) هر پرسش را قبل از استدلال، به یک نوع ساختار مناسب وظیفه — جدول، گراف، کاتالوگ، الگوریتم یا تکه متن — هدایت می‌کند. این روش در بنچمارک Loong ۲۸ امتیاز بالاتر از GraphRAG کسب کرده و ۲۲ برابر سریع‌تر اجرا می‌شود، در حالی که مسیریاب آموزش‌دیده با DPO به تنهایی مسئول ۱۵ امتیاز از بهبود دقت است.

اطلس: پیش‌آموزش مشترک بازیاب-خوانشگر مدل‌های زبانی بزرگ ۵۴۰ میلیارد پارامتری را با ۱۱ میلیارد پارامتر شکست می‌دهد

اطلس (JMLR 2023) با استفاده از تنها ۶۴ نمونه آموزشی به دقت ۴۲.۴٪ در Natural Questions دست می‌یابد و مدل PaLM 540B را با ۳ واحد اختلاف و تنها با ۱۱ میلیارد پارامتر شکست می‌دهد. این کار از طریق پیش‌آموزش مشترک یک بازیاب متراکم مبتنی بر Contriever با یک خوانشگر Fusion-in-Decoder مبتنی بر T5 انجام شده است. این تحلیل محدودیت‌های دقت بازیابی، هزینه‌های زیرساختی شاخص ۵۸۷ گیگابایتی و پیامدهای آن برای سیستم‌های پرسش و پاسخ دفتر کل Beancount را پوشش می‌دهد.

Fusion-in-Decoder: چگونه بازیابی چند-متنی پرسش و پاسخ مولد را بهبود می‌بخشد

معماری FiD ابداعی ایزاکارد و گریو، متون بازیابی شده را به صورت مستقل رمزگذاری کرده و سپس آن‌ها را در رمزگشا (decoder) ادغام می‌کند و در آزمون‌های NQ و TriviaQA بین ۴ تا ۱۱ امتیاز بهتر از RAG-Sequence عمل می‌کند. این پست به بررسی این طراحی و پیامدهای آن برای پرسش و پاسخ در دفتر کل Beancount می‌پردازد، جایی که سنتز چندین ورودی در تراکنش‌ها یک روال معمول است.

مباحثه چندعاملی مدل‌های زبانی بزرگ: دستاوردهای واقعی در دقت، رایانش کنترل‌نشده و توهم جمعی

بررسی دقیق مقاله مباحثه چندعاملی Du و همکاران در ICML 2024 — که گزارشگر ۱۴.۸ واحد افزایش دقت در محاسبات است — در کنار ردیه‌های سال ۲۰۲۵ که نشان می‌دهد تک‌عامل‌ها با بودجه مشابه با عملکرد مباحثه برابری می‌کنند، و تحلیلی بر اینکه چرا توهم جمعی (۶۵٪ از شکست‌های مباحثه) خطرات خاصی برای ثبت‌های دفتر کل به کمک هوش مصنوعی ایجاد می‌کند.

مدل‌های زبانی بزرگ برای پیش‌بینی سری‌های زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی

یک مقاله منتخب (Spotlight) در NeurIPS 2024 سه روش پیش‌بینی سری‌های زمانی مبتنی بر LLM شامل OneFitsAll، Time-LLM و CALF را مورد بررسی قرار داده و دریافت که حذف مدل زبانی در اکثر موارد دقت را بهبود می‌بخشد و سرعت آموزش را تا ۱۳۸۳ برابر افزایش می‌دهد. برای کاربردهای هوش مصنوعی مالی مانند پیش‌بینی موجودی Beancount، مدل‌های سبک و تخصصی همواره مدل‌های تغییر کاربری یافته LLM را شکست می‌دهند.

تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود

مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدل‌های زبانی ۷ میلیارد پارامتری نشان می‌دهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست می‌یابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف می‌شود — با پیامدهای مستقیم برای طراحی عامل‌های Beancount و هر سیستمی که به به‌روزرسانی‌های مکرر دانش نیاز دارد.

IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحله‌ای

روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق می‌کند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تک‌مرحله‌ای دست می‌یابد؛ این روش نشان می‌دهد که با استراتژی بازیابی صحیح، یک مدل 3B می‌تواند بر GPT-3 175B غلبه کند.