Mike Thrift

Marketing Manager

May 1, 2026·mike

SWE-agent: چگونه طراحی رابط کاربری پتانسیل مهندسی نرم‌افزار خودکار را آزاد می‌کند

سیستم SWE-agent (NeurIPS 2024) رابط‌های کاربری عامل-کامپیوتر (ACI) را معرفی می‌کند — لایه‌هایی که به طور خاص برای تعامل بین مدل‌های زبانی بزرگ (LLM) و محیط‌های نرم‌افزاری ساخته شده‌اند. این سیستم بهبود ۱۰.۷ واحد درصدی نسبت به دسترسی مستقیم به شل (Shell) و نرخ حل ۱۲.۴۷ درصدی در بنچمارک SWE-bench با GPT-4 Turbo را نشان می‌دهد. طراحی رابط کاربری، و نه توانایی مدل، گلوگاه اصلی برای عامل‌های کدنویسی خودمختار است.

llm

automation

April 30, 2026·mike

SWE-bench: آیا مدل‌های زبانی می‌توانند مسائل واقعی گیت‌هاب را حل کنند؟

SWE-bench مدل‌های زبانی را بر روی ۲,۲۹۴ مسئله واقعی گیت‌هاب در ۱۲ مخزن پایتون با استفاده از تست‌های مبتنی بر اجرا ارزیابی می‌کند؛ در زمان انتشار، Claude 2 تنها ۱.۹۶٪ از مسائل را با بازیابی واقع‌گرایانه حل کرد که بنچمارک استاندارد برای عامل‌های کدنویسی را ایجاد کرد و حالت‌های شکست در بازیابی و طول وصله را که مستقیماً به عامل‌های بازنویسی Beancount مربوط می‌شوند، آشکار ساخت.

llm

machine-learning

April 29, 2026·mike

CodeAct: چرا کدهای پایتون قابل اجرا، دقت عوامل LLM را ۲۰٪ افزایش می‌دهند

CodeAct (ICML 2024) فراخوانی ابزار مبتنی بر JSON را با کدهای پایتون قابل اجرا جایگزین می‌کند که نرخ موفقیت عوامل GPT-4 را در وظایف چند-ابزاری حدود ۲۰ درصد بهبود بخشیده و گام‌های تعاملی را ۳۰٪ کاهش می‌دهد — این موضوع پیامدهای مستقیمی برای ساخت عوامل مغایرت‌گیری قابل اعتماد در Beancount دارد.

llm

automation

April 28, 2026·mike

مدل‌های زبانی بزرگ هنوز نمی‌توانند استدلال خود را اصلاح کنند — یافته‌های ICLR 2024 و پیامدهای هوش مصنوعی در امور مالی

هوانگ و همکاران (ICLR 2024) نشان می‌دهند که مدل‌های زبانی بزرگ (LLM) وقتی بدون بازخورد بیرونی ملزم به بازبینی استدلال خود می‌شوند، به طور مداوم دچار کاهش دقت می‌شوند — دقت GPT-4 در GSM8K از ۹۵.۵٪ به ۹۱.۵٪ کاهش می‌یابد — و این موضوع چه معنایی برای طراحی عوامل قابل اعتماد ثبت دفتر روزنامه Beancount دارد.

llm

machine-learning

April 27, 2026·mike

درخت افکار: حل مسئله آگاهانه با جستجوی مدل‌های زبانی بزرگ

درخت افکار (ToT) با سازماندهی استدلال مدل زبانی در یک درخت جستجوی شاخه‌ای همراه با هرس و بازگشت به عقب، در بازی ۲۴ به دقت ۷۴٪ در مقابل ۴٪ برای CoT استاندارد GPT-4 دست می‌یابد؛ این موضوع پیامدهای مستقیمی برای طبقه‌بندی مالی چندمرحله‌ای و بهینه‌سازی مالیاتی در جریان‌های کاری Beancount دارد.

llm

machine-learning

April 26, 2026·mike

CRITIC: چرا خوداصلاحی مدل‌های زبانی بزرگ نیازمند بازخورد ابزارهای خارجی است

سیستم CRITIC (کنفرانس ICLR 2024) با تکیه بر سیگنال‌های ابزارهای خارجی برای بازنگری در مدل‌های زبانی بزرگ، به بهبود ۷.۷ در شاخص F1 در پاسخگویی به سوالات دامنه آزاد و کاهش ۷۹.۲ درصدی سمیت محتوا دست یافت؛ یک حلقه «تایید و سپس اصلاح» که مستقیماً با امنیت ثبت اطلاعات در عامل‌های مالی Beancount مطابقت دارد.

llm

machine-learning

April 25, 2026·mike

Reflexion: عامل‌های زبانی که بدون بازآموزی از اشتباهات خود می‌آموزند

روش Reflexion (ارائه شده در NeurIPS 2023) به عامل‌های LLM اجازه می‌دهد با ذخیره تحلیل‌های کلامی پس از شکست در یک بافر اپیزودیک، بدون نیاز به به‌روزرسانی وزن‌ها، عملکرد خود را بهبود بخشند. این روش در بنچمارک HumanEval با GPT-4 به دقت ۹۱٪ می‌رسد اما در WebShop شکست می‌خورد که نشان‌دهنده یک محدودیت ساختاری است؛ یادگیری تقویتی کلامی تنها زمانی کار می‌کند که ارزیاب سیگنالی شفاف و قابل اجرا تولید کند. در ادامه خواهیم دید که این موضوع برای ساخت یک عامل دفترکل خود-اصلاح‌گر Beancount چه معنایی دارد.

llm

machine-learning

April 24, 2026·mike

خودسازگاری: نمونه‌برداری مبتنی بر رای اکثریت دقت زنجیره فکر را افزایش می‌دهد

خودسازگاری جایگزین رمزگشایی حریصانه زنجیره فکر با رای اکثریت بر روی N مسیر استدلال نمونه‌برداری شده می‌شود — که دقت GPT-3 را در GSM8K بدون هیچ تنظیم دقیق ۱۷.۹ واحد درصد افزایش می‌دهد — و مستقیماً در محاسبات مالی چندمرحله‌ای که در آن‌ها یک رمزگشایی واحد مدل زبانی غیرقابل اعتماد است، کاربرد دارد.

llm

machine-learning

April 23, 2026·mike

PAL: مدل‌های زبانی به کمک برنامه برای محاسبات مالی قابل اطمینان

PAL (مدل‌های زبانی به کمک برنامه) با واگذاری محاسبات به یک مفسر پایتون، به افزایش دقت ۳۸ واحد درصدی نسبت به زنجیره اندیشه در وظایف سنگین محاسباتی دست می‌یابد — معماری‌ای که مستقیماً برای پرس‌وجوهای دفتر کل Beancount و هوش مصنوعی مالی قابل اطمینان کاربرد دارد.

llm

machine-learning

April 22, 2026·mike

آیا مدل‌های زبانی بزرگ می‌توانند داده‌های جدولی را تحلیل کنند؟ چهار بنچمارک درباره هوش مصنوعی مالی چه می‌گویند

چهار بنچمارک سال‌های ۲۰۲۴-۲۰۲۵ نشان می‌دهند که GPT-4 در پاسخ‌دهی به سوالات جداول واقعی امتیاز ۴۲٪ را در مقابل ۸۶٪ انسان‌ها کسب کرده است، در حالی که در تجمیع‌های پیچیده این عدد به ۱۹.۶٪ سقوط می‌کند — و نحو بومی Beancount در بدترین رتبه سلسله‌مراتب سریال‌سازی برای ورودی مدل‌های زبانی قرار دارد.

llm

beancount

April 21, 2026·mike

هوش مصنوعی قانون‌مند برای عوامل حسابداری: RLAIF، قوانین خط‌مشی و ریسک‌های گودهارت

مقاله هوش مصنوعی قانون‌مند آنتروپیک (بای و همکاران، ۲۰۲۲) مدل‌های زبانی بزرگ را آموزش می‌دهد تا با استفاده از بازخوردهای تولید شده توسط هوش مصنوعی به جای برچسب‌های آسیب انسانی، از قوانین پیروی کنند. این گزارش تحقیقاتی بررسی می‌کند که چگونه خط لوله نقد-بازبینی-ترجیح RLAIF بر ایمنی بازنویسی برای عوامل خودکار دفترکل Beancount منطبق می‌شود — و زمانی که «قانون اساسی» به جای مجموعه‌ای از قوانین اخلاقی، یک چارت حساب‌ها باشد، گودهارتینگ، شکست‌های کالیبراسیون و ریسک‌های استفاده دوگانه چگونه به نظر می‌رسند.

machine-learning

llm

April 20, 2026·mike

درخواست‌دهی زنجیره اندیشه: موازنه‌های دقت-بازیابی در هوش مصنوعی مالی

یک بررسی دقیق بر روی مقاله زنجیره اندیشه سال ۲۰۲۲ Wei و همکاران و پیامدهای آن برای هوش مصنوعی مالی — چرا CoT دقت را افزایش می‌دهد اما ممکن است بازیابی در شناسایی رویدادهای نادر را کاهش دهد، چرا آستانه مقیاس برای عامل‌های عملیاتی مهم است، و تیم‌های مالی که با استفاده از LLMها سیستم می‌سازند باید به چه مواردی توجه کنند.

llm

machine-learning

نمایش 73–84 از 87 پست

قبلی7 / 8بعدی