8 پست با برچسب "Technology"

AILLMAutomationMachine LearningBeancountData ScienceTechnology

WildToolBench: چرا هیچ مدل زبانی بزرگی در دقت جلسات استفاده از ابزار در دنیای واقعی از ۱۵٪ فراتر نمی‌رود

بنچ‌مارک WildToolBench (ICLR 2026) ۵۷ مدل زبانی بزرگ را بر روی ۱۰۲۴ وظیفه استخراج شده از رفتار واقعی کاربران ارزیابی می‌کند — هیچ مدلی از دقت ۱۵٪ در سطح جلسه فراتر نمی‌رود، و سازمان‌دهی ترکیبی، نیت پنهان و انتقال‌های دستورالعمل سه مورد از جدی‌ترین حالت‌های شکست هستند.

LLMAIMachine LearningData ScienceFinanceTechnologyAnalytics

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

مقاله TACL 2024 توسط لیو و همکاران نشان می‌دهد که مدل‌های زبانی بزرگ در اطلاعاتی که در میان زمینه‌های طولانی پنهان شده‌اند، تا ۲۰ امتیاز ضعیف‌تر عمل می‌کنند — یک افت عملکرد U-شکل که بر تمام مدل‌های آزمایش‌شده از جمله Claude-1.3-100K تأثیر می‌گذارد — با پیامدهای ملموس برای نحوه ترتیب‌بندی قطعات بازیابی شده در خط لوله‌های RAG در کاربردهای مالی و حسابداری.

AIMachine LearningAutomationLLMTechnologyData ScienceAI Agents

OSWorld: موفقیت عامل‌های هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسان‌ها در ۷۲٪ آن‌ها موفق می‌شوند

بنچمارک OSWorld (NeurIPS 2024) عامل‌های هوش مصنوعی چندوجهی را در ۳۶۹ وظیفه واقعی دسکتاپ در اوبونتو، ویندوز و مک‌اواس ارزیابی می‌کند — و شکافی ۶۰ درصدی بین بهترین مدل (۱۲.۲۴٪) و عملکرد انسانی (۷۲.۳۶٪) پیدا کرده است که ۷۵٪ از شکست‌ها ریشه در خطاهای انطباق بصری-حرکتی دارد تا ضعف در استدلال.

AILLMMachine LearningBeancountPlain-Text AccountingTechnologyRAG

StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست می‌دهد

StructRAG (ICLR 2025) هر پرسش را قبل از استدلال، به یک نوع ساختار مناسب وظیفه — جدول، گراف، کاتالوگ، الگوریتم یا تکه متن — هدایت می‌کند. این روش در بنچمارک Loong ۲۸ امتیاز بالاتر از GraphRAG کسب کرده و ۲۲ برابر سریع‌تر اجرا می‌شود، در حالی که مسیریاب آموزش‌دیده با DPO به تنهایی مسئول ۱۵ امتیاز از بهبود دقت است.

AILLMMachine LearningAutomationTechnologyPerformanceFinance

برتری مدل‌های زبانی بزرگ تک‌عاملی بر سیستم‌های چندعاملی در استدلال چندگامی تحت بودجه یکسان توکن‌های تفکر

پیش‌نویس ۲۰۲۶ استنفورد با یکسان‌سازی بودجه توکن‌های تفکر در پنج معماری چندعاملی نشان می‌دهد که مدل‌های زبانی بزرگ تک‌عاملی در استدلال چندگامی با سیستم‌های چندعاملی برابری کرده یا از آن‌ها پیشی می‌گیرند؛ این یافته با تکیه بر نابرابری پردازش داده، پیامدهایی برای طراحی عامل‌های هوش مصنوعی در حوزه مالی دارد.

AIMachine LearningLLMTechnologyFinanceBeancountPlain-Text Accounting

Self-RAG: بازیابی تطبیقی و خود-انتقادی برای مدل‌های زبانی بزرگ

Self-RAG (ارائه شفاهی ICLR 2024) یک مدل زبانی را آموزش می‌دهد تا تصمیم بگیرد چه زمانی بازیابی را انجام دهد و سپس نتایج خود را با استفاده از چهار توکن بازتابی رتبه‌بندی کند — دستیابی به ۵۵.۸٪ در PopQA و ۸۰.۲ FactScore در بیوگرافی‌ها در حالی که در پنج معیار از ChatGPT پیشی گرفته است. این تحلیل شامل مکانیسم، نتایج حذف اجزا (ablation)، محدودیت‌های بازتولید و پیامدهای آن برای ایجنت‌های هوش مصنوعی مالی روی دفترکل‌های Beancount است.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnology

AgentBench: ارزیابی مدل‌های زبانی بزرگ به عنوان عامل — درس‌هایی برای قابلیت اطمینان هوش مصنوعی در امور مالی

AgentBench (لیو و همکاران، ICLR 2024) ۲۷ مدل زبانی بزرگ را در ۸ محیط تعاملی مورد سنجش قرار می‌دهد — GPT-4 امتیاز کلی ۴.۰۱ را در مقابل ۰.۹۶ برای بهترین مدل متن‌باز کسب کرد. سه حالت شکست غالب (تجاوز از حد وظیفه در ۶۷.۹٪ از شکست‌های گراف دانش، خطاهای قالب‌بندی در ۵۳.۳٪ از شکست‌های پایگاه داده و اقدامات نامعتبر) مستقیماً با ریسک‌های استقرار یک عامل بازنویسی Beancount در یک دفتر کل واقعی مطابقت دارند.

AILLMMachine LearningAutomationBeancountPlain-Text AccountingTechnologyFinance

MemGPT: مدیریت فضای متنی مجازی برای عامل‌های مدل زبانی بزرگ (LLM)

MemGPT روش صفحه‌بندی حافظه مجازی به سبک سیستم‌عامل را در مدل‌های زبانی بزرگ (LLM) پیاده‌سازی می‌کند و با استفاده از ذخیره‌سازی سه‌لایه — حافظه کاری، بازخوانی و آرشیوی — به عامل‌ها قابلیت یادآوری پایدار در جلسات مختلف می‌دهد؛ در بنچمارک‌های چت چندجلسه‌ای، MemGPT با GPT-4 به دقت ۹۲.۵٪ در مقابل پایه ۳۲.۱٪ برای فضای متنی ثابت دست یافته است.

همه چیز درباره Technology

WildToolBench: چرا هیچ مدل زبانی بزرگی در دقت جلسات استفاده از ابزار در دنیای واقعی از ۱۵٪ فراتر نمی‌رود

گمشده در میان: سوگیری موقعیتی در مدل‌های زبانی بزرگ و تأثیر آن بر هوش مصنوعی مالی

OSWorld: موفقیت عامل‌های هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسان‌ها در ۷۲٪ آن‌ها موفق می‌شوند

StructRAG (ICLR 2025): انتخاب ساختار مناسب سند، GraphRAG را با اختلاف ۲۸ امتیاز شکست می‌دهد

برتری مدل‌های زبانی بزرگ تک‌عاملی بر سیستم‌های چندعاملی در استدلال چندگامی تحت بودجه یکسان توکن‌های تفکر

Self-RAG: بازیابی تطبیقی و خود-انتقادی برای مدل‌های زبانی بزرگ

AgentBench: ارزیابی مدل‌های زبانی بزرگ به عنوان عامل — درس‌هایی برای قابلیت اطمینان هوش مصنوعی در امور مالی

MemGPT: مدیریت فضای متنی مجازی برای عامل‌های مدل زبانی بزرگ (LLM)

شروع کار با Beancount.io

شروع کار

ویژگی‌ها

جامعه کاربری

حقوقی