Beancount.io LogoBeancount.io
Mike Thrift

Mike Thrift

Marketing Manager

مشاهده تمام نویسندگان

GuardAgent: اعمال امنیت قطعی برای عامل‌های LLM از طریق اجرای کد
·mike

GuardAgent: اعمال امنیت قطعی برای عامل‌های LLM از طریق اجرای کد

سیستم GuardAgent (ICML 2025) یک عامل LLM مجزا را بین عامل هدف و محیط آن قرار می‌دهد تا هر اقدام پیشنهادی را از طریق تولید و اجرای کد پایتون تایید کند. این روش به دقت ۹۸.۷ درصدی در اعمال سیاست‌ها و ۱۰۰ درصد نرخ تکمیل وظایف دست می‌یابد، در حالی که قواعد امنیتی تعبیه‌شده در پرامپت تنها ۸۱ درصد دقت داشته و باعث شکست ۲۹ تا ۷۱ درصدی وظایف می‌شوند.

ai
llm
automation
security
+3
مباحثه چندعاملی مدل‌های زبانی بزرگ: دستاوردهای واقعی در دقت، رایانش کنترل‌نشده و توهم جمعی
·mike

مباحثه چندعاملی مدل‌های زبانی بزرگ: دستاوردهای واقعی در دقت، رایانش کنترل‌نشده و توهم جمعی

بررسی دقیق مقاله مباحثه چندعاملی Du و همکاران در ICML 2024 — که گزارشگر ۱۴.۸ واحد افزایش دقت در محاسبات است — در کنار ردیه‌های سال ۲۰۲۵ که نشان می‌دهد تک‌عامل‌ها با بودجه مشابه با عملکرد مباحثه برابری می‌کنند، و تحلیلی بر اینکه چرا توهم جمعی (۶۵٪ از شکست‌های مباحثه) خطرات خاصی برای ثبت‌های دفتر کل به کمک هوش مصنوعی ایجاد می‌کند.

ai
llm
machine-learning
automation
+2
مدل‌های زبانی بزرگ برای پیش‌بینی سری‌های زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی
·mike

مدل‌های زبانی بزرگ برای پیش‌بینی سری‌های زمانی مفید نیستند: مفهوم NeurIPS 2024 برای هوش مصنوعی مالی

یک مقاله منتخب (Spotlight) در NeurIPS 2024 سه روش پیش‌بینی سری‌های زمانی مبتنی بر LLM شامل OneFitsAll، Time-LLM و CALF را مورد بررسی قرار داده و دریافت که حذف مدل زبانی در اکثر موارد دقت را بهبود می‌بخشد و سرعت آموزش را تا ۱۳۸۳ برابر افزایش می‌دهد. برای کاربردهای هوش مصنوعی مالی مانند پیش‌بینی موجودی Beancount، مدل‌های سبک و تخصصی همواره مدل‌های تغییر کاربری یافته LLM را شکست می‌دهند.

ai
machine-learning
forecasting
data-science
+3
AuditCopilot: LLMs for Fraud Detection in Double-Entry Bookkeeping
·mike

AuditCopilot: LLMs for Fraud Detection in Double-Entry Bookkeeping

AuditCopilot applies open-source LLMs (Mistral-8B, Gemma, Llama-3.1) to corporate journal entry fraud detection, cutting false positives from 942 to 12 — but ablation reveals the LLM functions primarily as a synthesis layer on top of Isolation Forest scores, not as an independent anomaly detector.

fraud-detection
llm
double-entry
journal-entries
+4
TAT-LLM: مدل LLaMA 2 تنظیم‌دقیق‌شده برای استدلال گسسته روی جداول و متون مالی
·mike

TAT-LLM: مدل LLaMA 2 تنظیم‌دقیق‌شده برای استدلال گسسته روی جداول و متون مالی

مدل TAT-LLM با تنظیم دقیق LLaMA 2 7B با استفاده از LoRA روی بنچ‌مارک‌های پرسش و پاسخ جداول و متون مالی، به دقت ۶۴.۶۰٪ در FinQA دست یافت و با شکست دادن GPT-4 (با دقت ۶۳.۹۱٪) از طریق تجزیه استدلال به مراحل قطعی «استخراج-استدلال-اجرا»، خطاهای محاسباتی را حذف کرد.

llm
ai
machine-learning
finance
+3
تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود
·mike

تنظیم دقیق در مقابل RAG: چرا بازیابی برای تزریق دانش جدید به مدل‌های زبانی بزرگ پیروز می‌شود

مقایسه تجربی RAG در مقابل تنظیم دقیق بدون نظارت در مدل‌های زبانی ۷ میلیارد پارامتری نشان می‌دهد که RAG به دقت بیش از ۰.۸۷۵ در حقایق پس از زمان قطع دانش دست می‌یابد، در حالی که تنظیم دقیق در ۰.۵۰۴ متوقف می‌شود — با پیامدهای مستقیم برای طراحی عامل‌های Beancount و هر سیستمی که به به‌روزرسانی‌های مکرر دانش نیاز دارد.

ai
llm
machine-learning
data-science
+3
IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحله‌ای
·mike

IRCoT: تلفیق بازیابی با زنجیره افکار برای پرسش و پاسخ چندمرحله‌ای

روش IRCoT بازیابی BM25 را با هر گام از حلقه استدلال زنجیره افکار تلفیق می‌کند و به بهبود ۱۱.۳+ در فراخوانی بازیابی و ۷.۱+ در امتیاز F1 در مجموعه داده HotpotQA نسبت به RAG تک‌مرحله‌ای دست می‌یابد؛ این روش نشان می‌دهد که با استراتژی بازیابی صحیح، یک مدل 3B می‌تواند بر GPT-3 175B غلبه کند.

ai
llm
machine-learning
automation
+3
FLARE: تولید افزوده با بازیابی فعال
·mike

FLARE: تولید افزوده با بازیابی فعال

مدل FLARE (EMNLP 2023) با تحریک بازیابی در میانه تولید با استفاده از آستانه‌های اطمینان احتمال توکن، RAG استاندارد را بهبود می‌بخشد و در 2WikiMultihopQA به ۵۱.۰ EM در مقابل ۳۹.۴ برای تک‌بازیابی می‌رسد — اما نقص در کالیبراسیون در مدل‌های چت آموزش‌دیده با دستورالعمل، قابلیت اطمینان آن را برای عامل‌های مالی تولیدی محدود می‌کند.

ai
machine-learning
llm
retrieval-augmented-generation
+3
تولید تقویت‌شده با بازیابی برای وظایف NLP دانش‌محور
·mike

تولید تقویت‌شده با بازیابی برای وظایف NLP دانش‌محور

مقاله لوئیس و همکاران در NeurIPS 2020، معماری ترکیبی RAG را معرفی کرد—یک تولیدکننده BART-large که با یک بازیاب دارای شاخص FAISS روی ۲۱ میلیون قطعه ویکی‌پدیا جفت شده است—و با دستیابی به ۴۴.۵ EM در Natural Questions، شکاف پارامتریک/غیرپارامتریک را پایه‌گذاری کرد که اکنون زیربنای اکثر سیستم‌های هوش مصنوعی عملیاتی است. این بررسی تضادهای RAG-Sequence در مقابل RAG-Token، حالت شکست «فروپاشی بازیابی» و معنای شاخص‌های قدیمی برای هوش مصنوعی مالی ساخته شده بر اساس دفترهای کل Beancount که فقط قابلیت افزودن دارند را پوشش می‌دهد.

ai
machine-learning
llm
data-science
+2
MultiHiertt: بنچ‌مارک استدلال عددی بر روی جداول مالی چند‌سلسله‌مراتبی
·mike

MultiHiertt: بنچ‌مارک استدلال عددی بر روی جداول مالی چند‌سلسله‌مراتبی

مجموعه داده MultiHiertt (ACL 2022) شامل ۱۰,۴۴۰ جفت پرسش و پاسخ از گزارش‌های مالی واقعی با میانگین ۳.۸۹ جدول سلسله‌مراتبی در هر گزارش است؛ مدل‌های پیشرفته امتیاز F1 ۳۸٪ را در مقابل ۸۷٪ برای انسان‌ها کسب کردند، با جریمه ۱۵ امتیازی برای پرسش‌های چند‌جدولی — که شکاف بازیابی را که هوش مصنوعی مالی باید پر کند، کمی‌سازی می‌کند.

ai
machine-learning
llm
financial-reporting
+3
ConvFinQA: پرسش و پاسخ مالی چند‌نوبتی و شکاف ۲۱ امتیازی بین مدل‌ها و متخصصان انسانی
·mike

ConvFinQA: پرسش و پاسخ مالی چند‌نوبتی و شکاف ۲۱ امتیازی بین مدل‌ها و متخصصان انسانی

ConvFinQA (EMNLP 2022) بنچ‌مارک FinQA را به گفتگوهای چند‌نوبتی درباره گزارش‌های سود S&P 500 گسترش می‌دهد و نشان می‌دهد که بهترین مدل تنظیم‌شده (fine-tuned) به دقت اجرای ۶۸.۹٪ در مقابل ۸۹.۴٪ متخصصان انسانی دست می‌یابد؛ این رقم در گفتگوهای ترکیبی چند‌وجهی، جایی که مدل‌ها باید بافت عددی را در موضوعات مالی مختلف حفظ کنند، به ۵۲.۴٪ کاهش می‌یابد.

ai
llm
machine-learning
finance
+3
TAT-QA: معیار ارزیابی پرسش و پاسخ ترکیبی جدول-متن برای استدلال در گزارش‌های سالانه مالی
·mike

TAT-QA: معیار ارزیابی پرسش و پاسخ ترکیبی جدول-متن برای استدلال در گزارش‌های سالانه مالی

TAT-QA یک معیار ارزیابی با ۱۶,۵۵۲ پرسش روی متن‌های گزارش مالی ترکیبی (جدول به علاوه متن) است که نشان داد اتکا به شواهد — و نه محاسبات ریاضی — گلوگاه اصلی در هوش مصنوعی مالی است؛ تا سال ۲۰۲۴، مدل‌های زبانی ۷ میلیاردی تنظیم‌شده به دقت F1 ۸۳٪ رسیدند و بیشتر شکاف با سقف ۹۱ درصدی انسانی را پر کردند.

ai
machine-learning
llm
finance
+2
نمایش 49–60 از 87 پست