Mike Thrift

Marketing Manager

June 18, 2026·mike

τ²-bench: اندازه‌گیری هزینه کنترل دوگانه در عامل‌های هوش مصنوعی مکالمه‌ای

τ²-bench بنچمارک عامل‌ها را به محیط‌های کنترل دوگانه گسترش می‌دهد، جایی که هم هوش مصنوعی و هم کاربر ابزارهایی را روی یک وضعیت مشترک فراخوانی می‌کنند. این مطالعه نشان می‌دهد که کاربران فعال نرخ موفقیت را ۱۸ تا ۲۵ واحد درصد کاهش می‌دهند، که پیامدهای مستقیمی برای عامل‌های Beancount دارد که دسترسی نوشتن مشترک با کاربران انسانی دارند.

llm

automation

June 17, 2026·mike

WorkArena++: شکاف ۹۳ درصدی بین عملکرد انسان و عامل‌های هوش مصنوعی در وظایف سازمانی ترکیبی

بنچ‌مارک WorkArena++ (NeurIPS 2024) تعداد ۶۸۲ وظیفه سازمانی ترکیبی را در سه سطح دشواری بررسی می‌کند. در حالی که انسان‌ها ۹۳.۹٪ این وظایف را حل می‌کنند، GPT-4o تنها موفق به حل ۲.۱٪ آن‌ها می‌شود؛ این موضوع به دقت نشان می‌دهد که چرا عامل‌های هوش مصنوعی فعلی در کارهای دانش‌محور با اهداف ضمنی شکست می‌خورند و چرا این شکاف برای اتوماسیون حسابداری خودمختار اهمیت دارد.

llm

automation

June 16, 2026·mike

بنچمارک GAIA: اندازه‌گیری آنچه مدل‌های هوش مصنوعی پیشرو واقعاً می‌توانند انجام دهند

بنچمارک GAIA شامل ۴۶۶ وظیفه دنیای واقعی در سه سطح دشواری است؛ عوامل پیشرو در اواسط سال ۲۰۲۶ به ۷۴.۵۵٪ رسیدند در حالی که این رقم برای انسان‌ها ۹۲٪ است، و شکاف باقی‌مانده در سطح ۳ مستقیماً به چالش‌های هماهنگی چندمرحله‌ای در گردش‌کارهای خودکار دفترکل Beancount مربوط می‌شود.

llm

machine-learning

June 15, 2026·mike

OSWorld: موفقیت عامل‌های هوش مصنوعی دسکتاپ در ۱۲٪ از وظایفی که انسان‌ها در ۷۲٪ آن‌ها موفق می‌شوند

بنچمارک OSWorld (NeurIPS 2024) عامل‌های هوش مصنوعی چندوجهی را در ۳۶۹ وظیفه واقعی دسکتاپ در اوبونتو، ویندوز و مک‌اواس ارزیابی می‌کند — و شکافی ۶۰ درصدی بین بهترین مدل (۱۲.۲۴٪) و عملکرد انسانی (۷۲.۳۶٪) پیدا کرده است که ۷۵٪ از شکست‌ها ریشه در خطاهای انطباق بصری-حرکتی دارد تا ضعف در استدلال.

machine-learning

automation

June 14, 2026·mike

WebArena: بنچ‌مارک ۸۱۲-تسک که آنچه را که ایجنت‌های وب واقعاً می‌توانند و نمی‌توانند انجام دهند اندازه‌گیری می‌کند

مدل GPT-4 تنها ۱۴.۴۱٪ از ۸۱۲ تسک واقعی وب در WebArena را تکمیل می‌کند، در حالی که انسان‌ها به ۷۸.۲۴٪ می‌رسند؛ حالت شکست غالب، «عدم امکان کاذب» (false infeasibility) — یعنی امتناع محافظه‌کارانه از عمل — است که پیامدهای مستقیمی برای هر ایجنتی دارد که با Fava یا رابط‌های کاربری وب مالی کار می‌کند.

llm

automation

June 13, 2026·mike

WorkArena: نحوه عملکرد عامل‌های وب مبتنی بر LLM در کارهای دانشی واقعی سازمانی

WorkArena عملکرد عامل‌های وب مبتنی بر LLM را در ۳۳ وظیفه واقعی در پلتفرم ServiceNow می‌سنجد — مدل GPT-4o به امتیاز کلی ۴۲.۷٪ دست یافت اما در وظایف فیلتر کردن لیست‌ها امتیاز ۰٪ را کسب کرد؛ موضوعی که نشان‌دهنده وجود یک سد محکم بین پر کردن فرم‌ها و تعامل با رابط کاربری ساختاریافته است و مستقیماً با چالش‌های اتوماسیون دفترکل Beancount همخوانی دارد.

llm

automation

June 12, 2026·mike

τ-bench: سنجش قابلیت اطمینان عامل‌های هوش مصنوعی در دامنه‌های واقعی استفاده از ابزار

بنچمارک τ-bench نشان می‌دهد که مدل‌های زبانی بزرگ برتر مانند Claude 3.5 Sonnet در وظایف خدمات مشتری خرده‌فروشی از pass@1 معادل ۰.۶۹۲ به pass@4 معادل ۰.۴۶۲ سقوط می‌کنند — یک شکاف در ثبات عملکرد که پیامدهای مستقیمی برای هر عامل ثبت داده (write-back) فعال در دفتر کل Beancount دارد.

llm

machine-learning

June 11, 2026·mike

Chain-of-Table: تکامل جداول در زنجیره استدلال مدل‌های زبانی بزرگ

روش Chain-of-Table (ارائه شده در ICLR 2024) استدلال جدولی مدل‌های زبانی بزرگ را با تکامل خود جدول به عنوان حالت میانی بهبود می‌بخشد؛ کسب دقت ۶۷.۳۱٪ در WikiTQ در مقابل ۶۱.۴۸٪ برای مدل‌های پایه پیشین، با برتری ۱۰.۲۵ امتیازی در جداول بیش از ۴۰۰۰ توکن و قابلیت کاربرد مستقیم برای عامل‌های پرس‌وجوی دفتر کل Beancount.

llm

machine-learning

June 10, 2026·mike

TableLlama: آیا یک مدل متن‌باز ۷ میلیاردی می‌تواند در درک جداول با GPT-4 رقابت کند؟

TableLlama مدل Llama 2 (7B) را بر روی ۲.۶ میلیون نمونه وظایف جدولی تنظیم دقیق می‌کند و در وظایف ساختاری مانند برچسب‌گذاری نوع ستون (F1 ۹۴ در مقابل ۳۲) از GPT-4 پیشی می‌گیرد، اما در استدلال ترکیبی WikiTQ با ۳۳ امتیاز اختلاف عقب می‌ماند — معیاری دقیق برای آنچه مدل‌های متن‌باز ۷ میلیاردی امروزه در هوش مصنوعی مالی می‌توانند و نمی‌توانند انجام دهند.

llm

machine-learning

June 9, 2026·mike

TAPAS: پرسش و پاسخ جدولی با نظارت ضعیف بدون SQL، و معنای آن برای Beancount

مدل TAPAS (تحقیقات گوگل، ACL 2020) به سوالات جدولی با انتخاب سلول‌ها و اعمال تجمیع‌های اسکالر پاسخ می‌دهد - بدون تولید SQL. این پست معماری آن، افزایش ۱۲ امتیازی دقت SQA، و چرایی تناسب الگوی انتخاب سلول برای پرس‌وجوهای کوچک دفترکل Beancount اما شکست آن در مقیاس بزرگ را تحلیل می‌کند.

machine-learning

llm

June 8, 2026·mike

MAC-SQL: تبدیل متن به SQL از طریق همکاری چند-عامل

مدل MAC-SQL (COLING 2025) از سه عامل تخصصی — انتخاب‌گر برای کاهش طرحواره، تجزیه‌کننده برای شکستن سوال و اصلاح‌کننده برای تصحیح SQL مبتنی بر اجرا — استفاده می‌کند تا به دقت اجرای ۵۹.۵۹٪ در بنچمارک BIRD دست یابد؛ تحلیل‌ها نشان می‌دهد که عامل اصلاح‌کننده بیشترین سهم را در بهبود عملکرد دارد (۴.۶۳+ واحد)، که پیامدهای مستقیمی برای تولید پرس‌وجو در دفاتر کل Beancount دارد.

machine-learning

database

June 7, 2026·mike

DIN-SQL: یادگیری در-متن تجزیه شده برای تبدیل متن به SQL

DIN-SQL (NeurIPS 2023) فرآیند تبدیل متن به SQL را به مراحل پیوند شما، طبقه‌بندی پیچیدگی و تولید SQL تجزیه می‌کند و دقت اجرای GPT-4 را در بنچمارک Spider بدون تنظیم دقیق از ۶۷.۴٪ به ۸۵.۳٪ افزایش می‌دهد — و همین استراتژی تجزیه مستقیماً بر رابط‌های زبان طبیعی برای زبان پرس‌وجوی BQL در Beancount قابل انطباق است.

llm

database

نمایش 25–36 از 87 پست

قبلی3 / 8بعدی