57 پست با برچسب "Automation"

LLMAIMachine LearningFinanceFinancial ReportingData ScienceAutomation

TAT-LLM: مدل LLaMA 2 تنظیم‌دقیق‌شده برای استدلال گسسته روی جداول و متون مالی

مدل TAT-LLM با تنظیم دقیق LLaMA 2 7B با استفاده از LoRA روی بنچ‌مارک‌های پرسش و پاسخ جداول و متون مالی، به دقت ۶۴.۶۰٪ در FinQA دست یافت و با شکست دادن GPT-4 (با دقت ۶۳.۹۱٪) از طریق تجزیه استدلال به مراحل قطعی «استخراج-استدلال-اجرا»، خطاهای محاسباتی را حذف کرد.

AILLMMachine LearningData ScienceBeancountAutomationDevelopers

تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود

مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدل‌های زبانی ۷ میلیارد پارامتری نشان می‌دهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست می‌یابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف می‌شود — با پیامدهای مستقیم برای طراحی عامل‌های Beancount و هر سیستمی که به به‌روزرسانی‌های مکرر دانش نیاز دارد.

AILLMMachine LearningAutomationPlain-Text AccountingBeancountFinance

IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحله‌ای

روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق می‌کند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تک‌مرحله‌ای دست می‌یابد؛ این روش نشان می‌دهد که با استراتژی بازیابی صحیح، یک مدل 3B می‌تواند بر GPT-3 175B غلبه کند.

AIMachine LearningLLMRetrieval-Augmented GenerationBeancountFinanceAutomation

FLARE: تولید افزوده با بازیابی فعال

مدل FLARE (EMNLP 2023) با تحریک بازیابی در میانه تولید با استفاده از آستانه‌های اطمینان احتمال توکن، RAG استاندارد را بهبود می‌بخشد و در 2WikiMultihopQA به ۵۱.۰ EM در مقابل ۳۹.۴ برای تک‌بازیابی می‌رسد — اما نقص در کالیبراسیون در مدل‌های چت آموزش‌دیده با دستورالعمل، قابلیت اطمینان آن را برای عامل‌های مالی تولیدی محدود می‌کند.

AILLMMachine LearningAutomationFinanceBeancount

DSPy: جایگزینی مهندسی پرامپت شکننده با خط‌لوله‌های کامپایل‌شده مدل زبانی بزرگ (LLM)

DSPy رشته‌های پرامپت دست‌ساز را با امضاهای اخباری و یک کامپایلر مبتنی بر معیار جایگزین می‌کند—عملکرد Llama2-13b را در استدلال ریاضی GSM8K از ۹.۴٪ به ۴۶.۹٪ می‌رساند و مسیری قابل‌نگهداری‌تر برای خط‌لوله‌های هوش مصنوعی مالی در محیط عملیاتی ارائه می‌دهد.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingDecision-making

LATS: جستجوی درختی عامل زبانی — استدلال، عمل و برنامه‌ریزی در یک چارچوب واحد

LATS (جستجوی درختی عامل زبانی، ICML 2024) روش‌های ReAct، درخت افکار (Tree of Thoughts) و Reflexion را در یک چارچوب واحد MCTS ادغام می‌کند و به نرخ موفقیت ۹۲.۷٪ در HumanEval با GPT-4 دست می‌یابد. برای دفترکل‌های Beancount مبتنی بر git، الزام بازگشت به حالت قبل که محدودیت LATS در محیط‌های عملیاتی است، به سادگی برآورده می‌شود.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingReconciliation

Voyager: کتابخانه‌های مهارت به عنوان پایه‌ای برای یادگیری مادام‌العمر عامل‌های هوش مصنوعی

Voyager، یک عامل Minecraft مبتنی بر GPT-4 از NVIDIA و Caltech، نشان می‌دهد که یک کتابخانه کد مهارت پایدار، یادگیری مادام‌العمر واقعی را بدون نیاز به fine-tuning ممکن می‌سازد — کشف ۳.۳ برابر موارد بیشتری نسبت به مدل‌های قبلی. این الگو مستقیماً با خودکارسازی طولانی‌مدت دفتر کل Beancount مطابقت دارد، هرچند دقت مالی مستلزم لایه‌های میانی (staging) است که محیط‌های بازی هرگز به آن‌ها نیاز ندارند.

LLMAIMachine LearningBeancountPlain-Text AccountingFinanceAutomation

HippoRAG: حافظه بلندمدت با الهام از علوم اعصاب برای مدل‌های زبانی بزرگ

HippoRAG (NeurIPS 2024) با ساخت یک گراف دانش از سه‌تایی‌های OpenIE و اعمال رتبه صفحه شخصی‌سازی شده (PPR) در زمان پرس‌وجو، به نرخ بازیابی ۸۹.۱٪ (Recall@5) در مجموعه داده 2WikiMultiHopQA دست می‌یابد (در مقابل ۶۸.۲٪ برای ColBERTv2)؛ این موضوع تاثیرات مستقیمی بر پرس‌وجو در دفترهای مالی پیچیده با تاریخچه تراکنش‌های چندین ساله دارد.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: ارزیابی مدل‌های زبانی بزرگ به عنوان عامل — درس‌هایی برای قابلیت اطمینان هوش مصنوعی در امور مالی

AgentBench (لیو و همکاران، ICLR 2024) ۲۷ مدل زبانی بزرگ را در ۸ محیط تعاملی مورد سنجش قرار می‌دهد — GPT-4 امتیاز کلی ۴.۰۱ را در مقابل ۰.۹۶ برای بهترین مدل متن‌باز کسب کرد. سه حالت شکست غالب (تجاوز از حد وظیفه در ۶۷.۹٪ از شکست‌های گراف دانش، خطاهای قالب‌بندی در ۵۳.۳٪ از شکست‌های پایگاه داده و اقدامات نامعتبر) مستقیماً با ریسک‌های استقرار یک عامل بازنویسی Beancount در یک دفتر کل واقعی مطابقت دارند.

AILLMAutomationBeancountFinanceReconciliationMulti-Agent

AutoGen: چارچوب‌های گفتگوی چند-عاملی برای هوش مصنوعی مالی

AutoGen (وو و همکاران، ۲۰۲۳) یک چارچوب گفتگوی چند-عاملی را معرفی می‌کند که در آن عامل‌های مبتنی بر مدل‌های زبانی بزرگ (LLM) برای تکمیل وظایف پیام مبادله می‌کنند؛ یک پیکربندی دو-عاملی دقت بنچمارک MATH را از ۵۵٪ به ۶۹٪ افزایش می‌دهد و یک عامل اختصاصی SafeGuard تشخیص کدهای ناامن را تا ۳۵ واحد F1 بهبود می‌بخشد — یافته‌هایی که مستقیماً در ساخت خط‌لوله‌های اتوماسیون امن و ماژولار Beancount کاربرد دارند.

همه چیز درباره Automation

TAT-LLM: مدل LLaMA 2 تنظیم‌دقیق‌شده برای استدلال گسسته روی جداول و متون مالی

تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود

IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحله‌ای

FLARE: تولید افزوده با بازیابی فعال

DSPy: جایگزینی مهندسی پرامپت شکننده با خط‌لوله‌های کامپایل‌شده مدل زبانی بزرگ (LLM)

LATS: جستجوی درختی عامل زبانی — استدلال، عمل و برنامه‌ریزی در یک چارچوب واحد

Voyager: کتابخانه‌های مهارت به عنوان پایه‌ای برای یادگیری مادام‌العمر عامل‌های هوش مصنوعی

HippoRAG: حافظه بلندمدت با الهام از علوم اعصاب برای مدل‌های زبانی بزرگ

AgentBench: ارزیابی مدل‌های زبانی بزرگ به عنوان عامل — درس‌هایی برای قابلیت اطمینان هوش مصنوعی در امور مالی

AutoGen: چارچوب‌های گفتگوی چند-عاملی برای هوش مصنوعی مالی

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی