Bean Labs Research Log

AILLMMachine LearningFinancial ReportingFinancial StatementsData ScienceAnalytics

FinanceBench: چرا RAG مبتنی بر ذخیره‌ساز برداری در اسناد مالی واقعی شکست می‌خورد

FinanceBench ۱۶ پیکربندی هوش مصنوعی را در برابر ۱۰،۲۳۱ سوال از پرونده‌های واقعی SEC ارزیابی می‌کند؛ RAG با ذخیره‌ساز برداری مشترک تنها در ۱۹٪ مواقع پاسخ صحیح می‌دهد و حتی GPT-4-Turbo با داشتن قطعه متن مرجع (oracle) تنها به دقت ۸۵٪ می‌رسد — این نشان می‌دهد که استدلال عددی، و نه بازیابی اطلاعات، محدودیت اصلی هوش مصنوعی مالی سازمانی است.

AILLMMachine LearningAutomationFinanceBeancount

DSPy: جایگزینی مهندسی پرامپت شکننده با خط‌لوله‌های کامپایل‌شده مدل زبانی بزرگ (LLM)

DSPy رشته‌های پرامپت دست‌ساز را با امضاهای اخباری و یک کامپایلر مبتنی بر معیار جایگزین می‌کند—عملکرد Llama2-13b را در استدلال ریاضی GSM8K از ۹.۴٪ به ۴۶.۹٪ می‌رساند و مسیری قابل‌نگهداری‌تر برای خط‌لوله‌های هوش مصنوعی مالی در محیط عملیاتی ارائه می‌دهد.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: جستجوی درختی عامل زبانی — استدلال، عمل و برنامه‌ریزی در یک چارچوب واحد

LATS (جستجوی درختی عامل زبانی، ICML 2024) روش‌های ReAct، درخت افکار (Tree of Thoughts) و Reflexion را در یک چارچوب واحد MCTS ادغام می‌کند و به نرخ موفقیت ۹۲.۷٪ در HumanEval با GPT-4 دست می‌یابد. برای دفترکل‌های Beancount مبتنی بر git، الزام بازگشت به حالت قبل که محدودیت LATS در محیط‌های عملیاتی است، به سادگی برآورده می‌شود.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: بازیابی تطبیقی و خود-انتقادی برای مدل‌های زبانی بزرگ

Self-RAG (ارائه شفاهی ICLR 2024) یک مدل زبانی را آموزش می‌دهد تا تصمیم بگیرد چه زمانی بازیابی را انجام دهد و سپس نتایج خود را با استفاده از چهار توکن بازتابی رتبه‌بندی کند — دستیابی به ۵۵.۸٪ در PopQA و ۸۰.۲ FactScore در بیوگرافی‌ها در حالی که در پنج معیار از ChatGPT پیشی گرفته است. این تحلیل شامل مکانیسم، نتایج حذف اجزا (ablation)، محدودیت‌های بازتولید و پیامدهای آن برای ایجنت‌های هوش مصنوعی مالی روی دفترکل‌های Beancount است.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: کتابخانه‌های مهارت به عنوان پایه‌ای برای یادگیری مادام‌العمر عامل‌های هوش مصنوعی

Voyager، یک عامل Minecraft مبتنی بر GPT-4 از NVIDIA و Caltech، نشان می‌دهد که یک کتابخانه کد مهارت پایدار، یادگیری مادام‌العمر واقعی را بدون نیاز به fine-tuning ممکن می‌سازد — کشف ۳.۳ برابر موارد بیشتری نسبت به مدل‌های قبلی. این الگو مستقیماً با خودکارسازی طولانی‌مدت دفتر کل Beancount مطابقت دارد، هرچند دقت مالی مستلزم لایه‌های میانی (staging) است که محیط‌های بازی هرگز به آن‌ها نیاز ندارند.

LLMAIMachine LearningBeancountPlain-Text AccountingFinanceAutomation

HippoRAG: حافظه بلندمدت با الهام از علوم اعصاب برای مدل‌های زبانی بزرگ

HippoRAG (NeurIPS 2024) با ساخت یک گراف دانش از سه‌تایی‌های OpenIE و اعمال رتبه صفحه شخصی‌سازی شده (PPR) در زمان پرس‌وجو، به نرخ بازیابی ۸۹.۱٪ (Recall@5) در مجموعه داده 2WikiMultiHopQA دست می‌یابد (در مقابل ۶۸.۲٪ برای ColBERTv2)؛ این موضوع تاثیرات مستقیمی بر پرس‌وجو در دفترهای مالی پیچیده با تاریخچه تراکنش‌های چندین ساله دارد.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: ارزیابی مدل‌های زبانی بزرگ به عنوان عامل — درس‌هایی برای قابلیت اطمینان هوش مصنوعی در امور مالی

AgentBench (لیو و همکاران، ICLR 2024) ۲۷ مدل زبانی بزرگ را در ۸ محیط تعاملی مورد سنجش قرار می‌دهد — GPT-4 امتیاز کلی ۴.۰۱ را در مقابل ۰.۹۶ برای بهترین مدل متن‌باز کسب کرد. سه حالت شکست غالب (تجاوز از حد وظیفه در ۶۷.۹٪ از شکست‌های گراف دانش، خطاهای قالب‌بندی در ۵۳.۳٪ از شکست‌های پایگاه داده و اقدامات نامعتبر) مستقیماً با ریسک‌های استقرار یک عامل بازنویسی Beancount در یک دفتر کل واقعی مطابقت دارند.

LLMAIMachine LearningFinanceFintechBeancountPlain-Text Accounting

BloombergGPT و محدودیت‌های مدل‌های زبانی بزرگ تخصصی در امور مالی

بلومبرگ یک مدل زبانی ۵۰ میلیارد پارامتری را با ۵۶۹ میلیارد توکن از داده‌های مالی آموزش داد و در بنچ‌مارک‌های تحلیل احساسات و استدلال جدولی بر مدل‌های عمومی پیروز شد — سپس GPT-4 بدون هیچ پیش‌آموزش اختصاصی مالی، با آن برابری کرد. آنچه این آزمایش ۱۰ میلیون دلاری درباره موازنه‌های پیش‌آموزش دامنه، توکن‌سازی اعداد و چرایی قابل‌اعتمادتر بودن استفاده از ابزارها نسبت به ساختار داخلی مدل برای عامل‌های حسابداری فاش می‌کند.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: چارچوب‌های گفتگوی چند-عاملی برای هوش مصنوعی مالی

AutoGen (وو و همکاران، ۲۰۲۳) یک چارچوب گفتگوی چند-عاملی را معرفی می‌کند که در آن عامل‌های مبتنی بر مدل‌های زبانی بزرگ (LLM) برای تکمیل وظایف پیام مبادله می‌کنند؛ یک پیکربندی دو-عاملی دقت بنچمارک MATH را از ۵۵٪ به ۶۹٪ افزایش می‌دهد و یک عامل اختصاصی SafeGuard تشخیص کدهای ناامن را تا ۳۵ واحد F1 بهبود می‌بخشد — یافته‌هایی که مستقیماً در ساخت خط‌لوله‌های اتوماسیون امن و ماژولار Beancount کاربرد دارند.

FinQA: محک سنجش استدلال عددی هوش مصنوعی در گزارش‌های مالی

Latest articles

FinanceBench: چرا RAG مبتنی بر ذخیره‌ساز برداری در اسناد مالی واقعی شکست می‌خورد

DSPy: جایگزینی مهندسی پرامپت شکننده با خط‌لوله‌های کامپایل‌شده مدل زبانی بزرگ (LLM)

LATS: جستجوی درختی عامل زبانی — استدلال، عمل و برنامه‌ریزی در یک چارچوب واحد

Self-RAG: بازیابی تطبیقی و خود-انتقادی برای مدل‌های زبانی بزرگ

Voyager: کتابخانه‌های مهارت به عنوان پایه‌ای برای یادگیری مادام‌العمر عامل‌های هوش مصنوعی

HippoRAG: حافظه بلندمدت با الهام از علوم اعصاب برای مدل‌های زبانی بزرگ

AgentBench: ارزیابی مدل‌های زبانی بزرگ به عنوان عامل — درس‌هایی برای قابلیت اطمینان هوش مصنوعی در امور مالی

BloombergGPT و محدودیت‌های مدل‌های زبانی بزرگ تخصصی در امور مالی

AutoGen: چارچوب‌های گفتگوی چند-عاملی برای هوش مصنوعی مالی

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی