رگرسیون پیگیری پروجکشن

در آمار ، رگرسیون پیگیری فرافکنی (PPR) یک مدل آماری است که توسط Jerome H. Friedman و Werner Stuetzle توسعه یافته است که پسوند مدل های افزودنی است . این مدل سازگار مدل های افزودنی است که در آن برای اولین بار از پروژه های این ماتریس داده ها از متغیرهای توضیحی در جهت مطلوب قبل از استفاده از توابع صاف به این متغیر توضیحی.

فهرست

نمای کلی مدل [ ویرایش ]

این مدل متشکل از ترکیبات خطی تبدیل غیر خطی ترکیبات خطی متغیرهای توضیحی است. مدل اصلی شکل می گیرد

${\ displaystyle y_ {i} = \ beta _ {0} + \ sum _ {j = 1} ^ {r} f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i} ) + \ varepsilon ،}$

که در آن x i یک ردیف 1 × p از ماتریس طراحی است که متغیرهای توضیحی برای مثال i است ، y i یک پیش بینی 1 × 1 است ، { β j } مجموعه ای از بردارهای r (هر یک واحد واحد طول p ) است که شامل پارامترهای ناشناخته، { F J } مجموعه ای از R توابع هموار در ابتدا مشخص است که نقشه از ℝ → ℝ و R hyperparameter است. مقادیر خوب r را می توان از طریق اعتبارسنجی متقابل تعیین کردیا یک استراتژی مرحله ای رو به جلو که در مواقعی که مدل متناسب قابل پیش بینی نباشد متوقف می شود. همانطور که r به بی نهایت و با یک مجموعه مناسب از توابع { f j } نزدیک می شود ، مدل PPR یک برآوردگر جهانی است ، زیرا می تواند هر عملکرد مداوم را در x p تقریبی کند .

برآورد مدل [ ویرایش ]

برای یک مجموعه داده خاص ${\ displaystyle \ {(y_ {i}، x_ {i}) \} _ {i = 1} ^ {n}}$ ، هدف این است که عملکرد خطا را به حداقل برسانید

${\ displaystyle \ min _ {f_ {j} ، \ beta _ {j}} S = \ sum _ {i = 1} ^ {n} \ سمت چپ [y_ {i} - \ sum _ {j = 1} ^ {r} f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) \ راست] ^ {2}}$

بیش از توابع $f_ {j}$ و بردارها $\ beta _ {j}$ . هیچ روشی برای حل همزمان همه متغیرها وجود ندارد ، اما از طریق بهینه سازی متناوب قابل حل است . ابتدا هرکدام را در نظر بگیرید

${\ displaystyle (f_ {j} ، \ beta _ {j})}$ جفت جداگانه: اجازه دهید تمام پارامترهای دیگر ثابت شوند و یک "باقیمانده" پیدا کنید ، واریانس خروجی که توسط پارامترهای دیگر حساب نشده است ، داده شده توسط

${\ displaystyle r_ {i} = y_ {i} - \ sum _ {l \ neq j} f_ {l} (\ beta _ {l} ^ {\ mathrm {T}} x_ {i})}$

وظیفه به حداقل رساندن تابع خطا اکنون به حل کاهش می یابد

${\ displaystyle \ min _ {f_ {j}، \ beta _ {j}} S '= \ sum _ {i = 1} ^ {n} \ left [r_ {i} -f_ {j} (\ beta _ {j} ^ {\ mathrm {T}} x_ {i}) \ راست] ^ {2}}$

برای هر j به نوبه خود. به طور معمول جدید است ${\ displaystyle (f_ {j} ، \ beta _ {j})}$ جفت ها به صورت مرحله ای جلو به مدل اضافه می شوند.

کنار: پس از تعیین جفت های جدید که از قبل نصب شده اند ، می توان دوباره تنظیم کرد پس از تعیین جفت های جدید متناسب با الگوریتمی معروف به backfitting ، که مستلزم بررسی مجدد یک جفت قبلی است ، محاسبه مجدد باقیمانده با توجه به تغییر جفت های دیگر ، دوباره برای محاسبه آن اطلاعات جدید و سپس دوچرخه سواری را از طریق این جفت های متناسب انجام دهید تا پارامترها به هم نزدیک شوند. این فرآیند معمولاً به مدلی منجر می شود که با جفت های متناسب کمتر عملکرد بهتری دارد ، اگرچه آموزش آن بیشتر طول می کشد و معمولاً دستیابی به همان عملکرد با پرش از تنظیم مجدد و صرفاً افزودن تناسب بیشتر به مدل امکان پذیر است (افزایش r ).

حل تابع خطای ساده برای تعیین یک ${\ displaystyle (f_ {j} ، \ beta _ {j})}$ جفت سازی را می توان با بهینه سازی متناوب انجام داد ، جایی که ابتدا تصادفی است $\ beta _ {j}$ برای طرح ریزی استفاده می شود $ایکس$ به فضای 1D ، و سپس بهینه است $f_ {j}$ پیدا شده است برای توصیف رابطه بین آن طرح و باقی مانده از طریق روش رگرسیون طرح پراکندگی مورد علاقه خود را. پس اگر $f_ {j}$ با فرض ثابت نگه داشته می شود $f_ {j}$ وزن بهینه به روز شده یک بار قابل تغییر است $\ beta _ {j}$ را می توان از طریق روش گاوس-نیوتن یافت - یک روش شبه نیوتن که در آن بخشی از هسی شامل مشتق دوم دور ریخته می شود. برای استخراج این ، ابتدا تیلور گسترش می یابد

${\ displaystyle f_ {j} (\ beta _ {j} ^ {T} x_ {i}) \ تقریبی f_ {j} (\ beta _ {j ، old} ^ {T} x_ {i}) + {\ نقطه {f_ {j}}} (\ beta _ {j ، قدیمی} ^ {T} x_ {i}) (\ beta _ {j} ^ {T} x_ {i} - \ beta _ {j ، old} ^ {T} x_ {i})}$ ، سپس گسترش را دوباره به عملکرد خطای ساده وصل کنید $S '$ و دستکاری جبری برای قرار دادن آن در فرم انجام دهید

${\ displaystyle \ min _ {\ beta _ {j}} S '\ تقریبی \ sum _ {i = 1} ^ {n} \ underbrace {{\ dot {f_ {j}}} (\ beta _ {j، old} ^ {T} x_ {i}) ^ {2}} _ {w} {\ Bigg [} {\ bigg (} \ underbrace {\ beta _ {j، old} ^ {T} x_ {i} + {\ frac {r_ {i} -f_ {j} (\ beta _ {j، old} ^ {T} x_ {i})} {{\ dot {f_ {j}}} (\ beta _ {j، old} ^ {T} x_ {i})}}}} _ {\ hat {b}} {\ bigg)} - \ beta _ {j} ^ {T} x_ {i} {\ Bigg]} ^ {2 }}$

این یک مشکل حداقل مربعات وزنی است. اگر برای همه اوزان حل کنیم $w$ و آنها را در یک ماتریس مورب قرار دهید $دبلیو$ ، همه اهداف جدید را روی هم قرار دهید $\ کلاه {b}$ به یک بردار ، و از ماتریس داده کامل استفاده کنید $ایکس$ به جای یک مثال واحد $x_ {i}$ ، سپس بهینه است $\ beta _ {j}$ با فرم بسته داده می شود

${\ displaystyle {\ underet {\ beta _ {j}} {\ operatorname {arg \، min}}} {\ Big \ |} {\ vec {\ hat {b}}} - X \ beta _ {j} {\ Big \ |} _ {W} ^ {2} = (X ^ {\ mathrm {T}} WX) ^ {- 1} X ^ {\ mathrm {T}} W {\ vec {\ hat {b }}}}$

از این به روز شده استفاده کنید $\ beta _ {j}$ برای پیدا کردن یک طرح جدید از $ایکس$ و دوباره $f_ {j}$ به طرح جدید پراکندگی. سپس از آن جدید استفاده کنید $f_ {j}$ برای به روز رسانی

$\ beta _ {j}$ با حل موارد بالا ، و این روند متناوب را ادامه دهید تا ${\ displaystyle (f_ {j} ، \ beta _ {j})}$ همگرا می شود.

نشان داده شده است که میزان همگرایی ، تعصب و واریانس تحت تأثیر تخمین می باشد $\ beta _ {j}$ و $f_ {j}$ .

بحث [ ویرایش ]

مدل PPR به شکل یک مدل افزودنی اساسی است اما دارای موارد اضافی است $\ beta _ {j}$ جز component ، بنابراین هر کدام $f_ {j}$ متناسب با یک طرح پراکنده از ${\ displaystyle \ beta _ {j} ^ {T} X ^ {T}}$ در مقابل باقیمانده (واریانس غیر قابل توضیح) در طول آموزش به جای استفاده از ورودی های خام خود. این مسئله یافتن هر یک را محدود می کند $f_ {j}$ به ابعاد کم ، و آنرا با حداقل مربعات معمول یا روشهای اتصالات spline قابل حل می کند و لعنت بعد را در حین آموزش دور می زند . زیرا $f_ {j}$ از یک پیش بینی از گرفته شده است $ایکس$ ، نتیجه به نظر می رسد یک "پشته" متعامد به بعد فرافکنی است ، بنابراین $\ {f_ {j} \}$ اغلب "توابع پشته" نامیده می شوند. دستورالعمل ها $\ beta _ {j}$ برای بهینه سازی مناسب بودن عملکردهای خط الراس مربوطه انتخاب شده اند.

توجه داشته باشید که چون PPR تلاش می کند تا پیش بینی های داده ها را متناسب کند ، تفسیر مدل نصب شده به عنوان یک کل ممکن است دشوار باشد ، زیرا هر متغیر ورودی به روشی پیچیده و چند وجهی حساب شده است. این می تواند مدل را برای پیش بینی بیشتر از درک داده ها مفید کند ، هر چند تجسم توابع منحنی فردی و در نظر گرفتن اینکه کدام مدل مدل کشف می کند می تواند بینشی ایجاد کند.

مزایای تخمین PPR [ ویرایش ]

این از توابع رگرسیون یک متغیره به جای شکل چند متغیره آنها استفاده می کند ، بنابراین به طور موثری با نفرین ابعاد مقابله می کند
رگرسیون تک متغیره امکان تخمین ساده و کارآمد را فراهم می کند
نسبت به مدل های افزودنی تعمیم یافته ، PPR می تواند طبقه عملکردهای بسیار غنی تری را تخمین بزند
برخلاف روش های محلی سازی محلی (مانند k-نزدیکترین همسایگان ) ، PPR می تواند متغیرهای با قدرت توضیح پایین را نادیده بگیرد.

معایب تخمین PPR [ ویرایش ]

PPR برای برآورد نیاز به بررسی فضای پارامتر M-بعدی دارد $\ beta _ {j}$ .
باید پارامتر هموار سازی را برای آن انتخاب کرد $f_ {j}$ .
تفسیر این مدل اغلب دشوار است

برنامه های افزودنی PPR [ ویرایش ]

صاف کننده های جایگزین ، مانند عملکرد شعاعی ، عملکرد هارمونیک و عملکرد افزودنی ، پیشنهاد شده اند و عملکرد آنها بسته به مجموعه داده های مورد استفاده متفاوت است.
از معیارهای بهینه سازی جایگزین نیز استفاده شده است ، مانند انحرافات مطلق استاندارد و انحرافات مطلق متوسط .
از حداقل مربعات معمولی می توان برای ساده سازی محاسبات استفاده کرد زیرا غالباً داده ها غیرخطی قوی ندارند.
برای انتخاب بردارهای جهت PPR از رگرسیون معکوس برش خورده (SIR) استفاده شده است.
PPR تعمیم یافته PPR معمولی را با حداقل مربعات با وزن مجدد (IRLS) و یک عملکرد پیوند برای برآورد داده های باینری ترکیب می کند.

PPR در مقابل شبکه های عصبی (NN) [ ویرایش ]

هر دو مدل رگرسیون پیگیری فرافکنی و شبکه های عصبی بردار ورودی را بر روی یک ابر هواپیمای یک بعدی طراحی می کنند و سپس یک تغییر شکل غیرخطی از متغیرهای ورودی را که به صورت خطی اضافه می شوند ، اعمال می کنند. بنابراین هر دو برای غلبه بر نفرین ابعاد ، مراحل یکسانی را دنبال می کنند. تفاوت اصلی این است که توابع $f_ {j}$ نصب در PPR می تواند برای هر ترکیبی از متغیرهای ورودی متفاوت باشد و یک بار برآورد شود و سپس با وزن به روز شود ، در حالی که در NN همه اینها از قبل مشخص شده و همزمان تخمین زده می شوند.

بنابراین ، برآورد PPR ساده تر از NN است و تبدیل متغیرها در PPR داده محور هستند در حالی که در NN ، این تبدیلات ثابت هستند.

همچنین به [ ویرایش ] مراجعه کنید

پیگیری پروجکشن

منابع [ ویرایش ]

https://en.wikipedia.org/wiki/Projection_pursuit_regression

+ نوشته شده در چهارشنبه نوزدهم شهریور ۱۳۹۹ ساعت 15:37 توسط علی رضا نقش نیلچی |

ریاضیات

آموزش ریاضی