Bean Labs Research Log

AILLMMachine LearningBeancountPlain-Text AccountingQueriesData Science

Chain-of-Table: تکامل جداول در زنجیره استدلال مدل‌های زبانی بزرگ

روش Chain-of-Table (ارائه شده در ICLR 2024) استدلال جدولی مدل‌های زبانی بزرگ را با تکامل خود جدول به عنوان حالت میانی بهبود می‌بخشد؛ کسب دقت ۶۷.۳۱٪ در WikiTQ در مقابل ۶۱.۴۸٪ برای مدل‌های پایه پیشین، با برتری ۱۰.۲۵ امتیازی در جداول بیش از ۴۰۰۰ توکن و قابلیت کاربرد مستقیم برای عامل‌های پرس‌وجوی دفتر کل Beancount.

LLMAIMachine LearningBeancountPlain-Text AccountingOpen SourceQueries

TableLlama: آیا یک مدل متن‌باز ۷ میلیاردی می‌تواند در درک جداول با GPT-4 رقابت کند؟

TableLlama مدل Llama 2 (7B) را بر روی ۲.۶ میلیون نمونه وظایف جدولی تنظیم دقیق می‌کند و در وظایف ساختاری مانند برچسب‌گذاری نوع ستون (F1 ۹۴ در مقابل ۳۲) از GPT-4 پیشی می‌گیرد، اما در استدلال ترکیبی WikiTQ با ۳۳ امتیاز اختلاف عقب می‌ماند — معیاری دقیق برای آنچه مدل‌های متن‌باز ۷ میلیاردی امروزه در هوش مصنوعی مالی می‌توانند و نمی‌توانند انجام دهند.

AIMachine LearningLLMData SciencePlain-Text AccountingBeancountQueriesAutomation

TAPAS: پرسش و پاسخ جدولی با نظارت ضعیف بدون SQL، و معنای آن برای Beancount

مدل TAPAS (تحقیقات گوگل، ACL 2020) به سوالات جدولی با انتخاب سلول‌ها و اعمال تجمیع‌های اسکالر پاسخ می‌دهد - بدون تولید SQL. این پست معماری آن، افزایش ۱۲ امتیازی دقت SQA، و چرایی تناسب الگوی انتخاب سلول برای پرس‌وجوهای کوچک دفترکل Beancount اما شکست آن در مقیاس بزرگ را تحلیل می‌کند.

AIMachine LearningDatabaseQueriesLLMBeancountAutomation

MAC-SQL: تبدیل متن به SQL از طریق همکاری چند-عامل

مدل MAC-SQL (COLING 2025) از سه عامل تخصصی — انتخاب‌گر برای کاهش طرحواره، تجزیه‌کننده برای شکستن سوال و اصلاح‌کننده برای تصحیح SQL مبتنی بر اجرا — استفاده می‌کند تا به دقت اجرای ۵۹.۵۹٪ در بنچمارک BIRD دست یابد؛ تحلیل‌ها نشان می‌دهد که عامل اصلاح‌کننده بیشترین سهم را در بهبود عملکرد دارد (۴.۶۳+ واحد)، که پیامدهای مستقیمی برای تولید پرس‌وجو در دفاتر کل Beancount دارد.

AILLMDatabaseQueriesBeancountPlain-Text AccountingMachine Learning

DIN-SQL: یادگیری در-متن تجزیه شده برای تبدیل متن به SQL

DIN-SQL (NeurIPS 2023) فرآیند تبدیل متن به SQL را به مراحل پیوند شما، طبقه‌بندی پیچیدگی و تولید SQL تجزیه می‌کند و دقت اجرای GPT-4 را در بنچمارک Spider بدون تنظیم دقیق از ۶۷.۴٪ به ۸۵.۳٪ افزایش می‌دهد — و همین استراتژی تجزیه مستقیماً بر رابط‌های زبان طبیعی برای زبان پرس‌وجوی BQL در Beancount قابل انطباق است.

BeancountAILLMDatabaseQueriesMachine LearningPlain-Text Accounting

بنچمارک BIRD: شکاف پایگاه‌داده واقعی در مدل‌های زبانی بزرگ Text-to-SQL

بنچمارک BIRD (NeurIPS 2023) مدل‌های زبانی بزرگ را روی ۹۵ پایگاه‌داده واقعی آزمایش می‌کند — GPT-4 با راهنماهای دامنه تنها به ۵۴.۸۹٪ و بدون آن‌ها به ۳۴.۸۸٪ دقت اجرا می‌رسد؛ شکافی ۲۰ واحدی که مستقیماً چالش‌های ایجاد یک رابط زبان طبیعی BQL برای Beancount را تعریف می‌کند.

AILLMSecurityAutomationBeancountComplianceTrust

استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP

پژوهشگران دانشگاه CMU و NC State با استفاده از آنالیز فرآیند تئوری سیستم (STPA) و نسخه ارتقا یافته پروتکل کانتکست مدل (MCP)، روشی را برای استخراج مشخصات ایمنی رسمی جهت استفاده عامل‌های LLM از ابزارها پیشنهاد داده‌اند. تایید مبتنی بر Alloy در یک مطالعه موردی زمان‌بندی تقویم، عدم وجود جریان‌های ناامن را اثبات می‌کند.

AILLMMachine LearningBeancountPlain-Text AccountingData ScienceQueries

GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو

پروژه GraphRAG مایکروسافت یک گراف موجودیت با بخش‌بندی لایدن بر روی یک پیکره متنی ایجاد می‌کند و خلاصه انجمن‌ها را از پیش محاسبه می‌نماید تا به سوالات معنایی جهانی پاسخ دهد که RAG برداری استاندارد قادر به مدیریت آن‌ها نیست — اما یک حسابرسی سوگیری در سال ۲۰۲۵ نشان می‌دهد که نرخ پیروزی ۷۲ تا ۸۳ درصدی آن پس از اصلاح آثار موقعیت و طول در ارزیابی‌های مبتنی بر مدل زبانی به عنوان داور (LLM-as-judge)، فرو می‌پاشد.

LLMAIFinancial ReportingMachine LearningBeancountCompliance

FinAuditing: نمرات زیر ۱۴٪ مدل‌های زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL

FinAuditing تعداد ۱۳ مدل زبانی بزرگ را در حالت صفر-نمونه روی ۱,۱۰۲ نمونه واقعی از گزارش‌های SEC XBRL آزمایش می‌کند؛ بالاترین نمرات ۱۳.۸۶٪ در تأیید ریاضیات مالی و ۱۲.۴۲٪ در بازیابی مفاهیم است—نتایجی که مستقیماً مرزهای اعتماد به ابزارهای حسابداری هوش مصنوعی را برای خودکارسازی بدون ابزارهای خارجی مشخص می‌کند.

τ-bench: سنجش قابلیت اطمینان عامل‌های هوش مصنوعی در دامنه‌های واقعی استفاده از ابزار

Latest articles

Chain-of-Table: تکامل جداول در زنجیره استدلال مدل‌های زبانی بزرگ

TableLlama: آیا یک مدل متن‌باز ۷ میلیاردی می‌تواند در درک جداول با GPT-4 رقابت کند؟

TAPAS: پرسش و پاسخ جدولی با نظارت ضعیف بدون SQL، و معنای آن برای Beancount

MAC-SQL: تبدیل متن به SQL از طریق همکاری چند-عامل

DIN-SQL: یادگیری در-متن تجزیه شده برای تبدیل متن به SQL

بنچمارک BIRD: شکاف پایگاه‌داده واقعی در مدل‌های زبانی بزرگ Text-to-SQL

استفاده تاییدپذیر و امن از ابزارها برای عامل‌های مدل زبانی بزرگ: تلاقی STPA و MCP

GraphRAG: از محلی تا جهانی؛ تلخیص با تمرکز بر پرس‌وجو

FinAuditing: نمرات زیر ۱۴٪ مدل‌های زبانی بزرگ در وظایف واقعی حسابرسی SEC XBRL

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی