ادامه رگرسیون لجستیک

تابع پیش بینی خطی

ایده اصلی رگرسیون لجستیک استفاده از مکانیزمی است که قبلاً برای رگرسیون خطی با مدل سازی احتمال p i با استفاده از یک تابع پیش بینی خطی ، یعنی ترکیبی خطی از متغیرهای توضیحی و مجموعه ای از ضرایب رگرسیون که مخصوص مدل موجود است ، استفاده شده است. اما برای همه آزمایشات یکسان است. تابع پیش بینی خطی $f (i)$ برای یک داده خاص ، i به صورت زیر نوشته می شود:

$f (i) = \ beta _ {0} + \ beta _ {1} x_ {1، i} + \ cdots + \ beta _ {m} x_ {m، i}،$

جایی که $\ beta _ {0} ، \ ldots ، \ beta _ {m}$ ضرایب رگرسیون هستند که نشانگر تأثیر نسبی یک متغیر توضیحی خاص بر نتیجه است.

این مدل معمولاً به شکل زیر به صورت فشرده تر در می آید:

ضرایب رگرسیون β 0 ، β 1 ، ... ، β m در یک بردار واحد β از اندازه m + 1 گروه بندی می شوند .
برای هر نقطه داده i ، یک شبه متغیر توضیحی x 0 ، i اضافه می شود ، با مقدار ثابت 1 ، مربوط به ضریب رهگیری β 0 .
متغیرهای توضیحی حاصل شده x 0، i ، x 1، i ، ...، x m، i سپس در یک بردار منفرد X i اندازه m + 1 گروه بندی می شوند .

این امکان را می دهد که تابع پیش بینی خطی را به شرح زیر بنویسید:

$f (i) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} ،$

با استفاده از علامت گذاری برای یک محصول نقطه ای بین دو بردار.

به عنوان یک مدل خطی تعمیم یافته [ ویرایش ]

مدل خاصی که توسط رگرسیون لجستیک استفاده می شود ، و آن را از رگرسیون خطی استاندارد و از انواع دیگر تحلیل رگرسیون برای نتایج با ارزش باینری متمایز می کند ، روشی است که احتمال یک نتیجه خاص با عملکرد پیش بینی خطی مرتبط است:

${\ displaystyle \ operatorname {logit} (\ operatorname {\ mathcal {E}} [Y_ {i} \ mid x_ {1، i}، \ ldots، x_ {m، i}]) = \ operatorname {logit} ( p_ {i}) = \ ln \ چپ ({\ frac {p_ {i}} {1-p_ {i}}} \ راست) = \ beta _ {0} + \ beta _ {1} x_ {1، i} + \ cdots + \ beta _ {m} x_ {m، i}}$

با استفاده از علامت جمع و جورتر توضیح داده شده در بالا ، این است:

${\ displaystyle \ operatorname {logit} (\ operatorname {\ mathcal {E}} [Y_ {i} \ mid \ mathbf {X} _ {i}]) = \ operatorname {logit} (p_ {i}) = \ ln \ چپ ({\ frac {p_ {i}} {1-p_ {i}}} \ راست) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}$

این فرمول ، رگرسیون لجستیک را به عنوان نوعی مدل خطی تعمیم یافته بیان می کند ، که متغیرها را با انواع مختلف توزیع احتمال با تطبیق یک تابع پیش بینی کننده خطی شکل فوق به نوعی تحول دلخواه مقدار مورد انتظار متغیر ، پیش بینی می کند .

شهود تغییر شکل با استفاده از تابع logit (ثبت طبیعی شانس) در بالا توضیح داده شد. همچنین تأثیر عملی تبدیل احتمال (که بین 0 تا 1 محدود است) به متغیری است که بیش از{\ displaystyle (- \ ناکافی ، + \ ناکافی)} $(- \ ضعیف ، + \ ناکافی)$ - بدین ترتیب با دامنه بالقوه تابع پیش بینی خطی در سمت راست معادله مطابقت دارد.

توجه داشته باشید که هر دو احتمال p i و ضرایب رگرسیون مشاهده نشده اند و ابزار تعیین آنها بخشی از مدل نیست. آنها به طور معمول با نوعی روش بهینه سازی تعیین می شوند ، مثلاً برآورد حداکثر احتمال ، مقادیری را پیدا می کند که به بهترین وجهی با داده های مشاهده شده مطابقت داشته باشد (یعنی دقیق ترین پیش بینی ها را برای داده های مشاهده شده قبلاً ارائه می دهد) ، معمولاً منوط به شرایط قاعده مند شدن هستند که بعید به نظر می رسد مقادیر ، به عنوان مثال مقادیر بسیار بزرگ برای هر یک از ضرایب رگرسیون. استفاده از شرط قاعده گذاری معادل انجام حداکثر برآورد خلفی (MAP) است ، گسترش حداکثر احتمال. (تنظیم نظم معمولاً با استفاده از انجام می شودیک تابع منظم سازی مربع ، که معادل قرار دادن توزیع قبلی گوس به صفر بر روی ضرایب است ، اما تنظیم کننده های دیگر نیز امکان پذیر است.) از قاعده بندی استفاده می شود یا نه ، یافتن یک راه حل به صورت بسته معمولاً امکان پذیر نیست. در عوض ، باید یک روش عددی تکراری مانند حداقل مربعات با وزن مجدد (IRLS) یا به طور معمول این روزها ، یک روش شبه نیوتن مانند روش L-BFGS استفاده شود . [38]

تفسیر β J برآورد پارامترها به عنوان اثر افزایشی بر ورود به سیستم از شانس ازای یک واحد تغییر در J متغیر توضیحی. در مورد یک متغیر توضیحی دوگانه ، به عنوان مثال ، جنسیت $e ^ {\ beta}$ برآورد شانس داشتن نتیجه برای مثال مردان در مقایسه با زنان است.

یک فرمول معادل از معکوس تابع logit استفاده می کند ، که تابع لجستیک است ، یعنی:

${\ displaystyle \ operatorname {\ mathcal {E}} [Y_ {i} \ mid \ mathbf {X} _ {i}] = p_ {i} = \ operatorname {logit} ^ {- 1} ({\ boldsymbol { \ beta}} \ cdot \ mathbf {X} _ {i}) = {\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}} }}}$

فرمول همچنین می تواند به عنوان یک توزیع احتمال (به طور خاص ، با استفاده از یک تابع احتمال توده ) نوشته شود:

${\ displaystyle \ Pr (Y_ {i} = y \ mid \ mathbf {X} _ {i}) = {p_ {i}} ^ {y} (1-p_ {i}) ^ {1-y} = \ چپ ({\ frac {e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}} {1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf { X} _ {i}}}} \ راست) ^ {y} \ چپ (1 - {\ frac {e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}} { 1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}}} \ سمت راست) ^ {1-y} = {\ frac {e ^ {{\ boldsymbol {\ beta }} \ cdot \ mathbf {X} _ {i} \ cdot y}} {1 + e ^ {{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}}}}$

به عنوان یک مدل متغیر پنهان [ ویرایش ]

مدل فوق دارای فرمول معادل مدل متغیر نهفته است . این فرمول در نظریه مدل های گسسته گسسته رایج است و گسترش آن به مدل های خاص پیچیده تر با گزینه های متعدد و همبسته و همچنین مقایسه رگرسیون لجستیک با مدل نزدیک مربوطه را آسان می کند .

تصور کنید که ، برای هر آزمایش i ، یک متغیر پنهان مداوم Y i * وجود دارد (یعنی یک متغیر تصادفی بدون مشاهده ) که به صورت زیر توزیع می شود:

$Y_ {i} ^ {\ ast} = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} + \ varepsilon \ ،$

جایی که

$\ varepsilon \ sim \ operatorname {Logistic} (0،1) \ ،$

یعنی متغیر پنهان می تواند مستقیماً از نظر تابع پیش بینی کننده خطی و یک متغیر خطای تصادفی افزودنی که براساس توزیع استاندارد لجستیک توزیع می شود ، نوشته شود .

سپس Y i را می توان به عنوان شاخصی برای مثبت بودن این متغیر پنهان مشاهده کرد:

$Y_ {i} = {\ start {موارد} 1 & {\ text {if}} Y_ {i} ^ {\ ast}> 0 \ {\ text {ie}} - \ varepsilon <{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} ، \\ 0 & {\ text {در غیر این صورت.}} \ end {موارد}}$

انتخاب مدل سازی متغیر خطا به طور خاص با یک توزیع لجستیکی استاندارد ، به جای توزیع لجستیکی کلی با مکان و مقیاس تنظیم شده بر روی مقادیر دلخواه ، محدود کننده به نظر می رسد ، اما در واقع ، چنین نیست. باید در نظر داشت که ما می توانیم ضرایب رگرسیون را خودمان انتخاب کنیم و اغلب می توانیم از آنها برای جبران تغییرات پارامترهای توزیع متغیر خطا استفاده کنیم. به عنوان مثال ، یک توزیع متغیر خطای لجستیکی با یک پارامتر مکان غیر صفر μ (که میانگین را تعیین می کند) معادل توزیع با پارامتر مکان صفر است ، جایی که μ به ضریب رهگیری اضافه شده است. هر دو حالت برای Y i * مقدار یکسانی تولید می کنندصرف نظر از تنظیمات متغیرهای توضیحی. به همین ترتیب ، یک پارامتر مقیاس دلخواه s برابر است با تنظیم پارامتر مقیاس بر 1 و سپس تقسیم تمام ضرایب رگرسیون بر s . در حالت دوم ، مقدار حاصل از Y i * با ضریب s کوچکتر از حالت اول برای همه مجموعه متغیرهای توضیحی خواهد بود - اما به طور انتقادی ، همیشه در همان سمت 0 باقی می ماند و از این رو منجر می شود به همان گزینه Y i .

(توجه داشته باشید که این پیش بینی می کند که بی ربط بودن پارامتر مقیاس ممکن است به مدل های پیچیده تری که بیش از دو گزینه در دسترس است منتقل نشود.)

به نظر می رسد که این فرمول دقیقاً معادل فرمول قبلی است که از نظر مدل خطی تعمیم یافته و بدون هیچ گونه متغیر پنهانی ، بیان شده است . این را می توان به شرح زیر، با استفاده از این واقعیت است که نشان داده شده است تابع توزیع تجمعی (CDF) از استاندارد توزیع لجستیک است تابع لجستیک است که معکوس از تابع لوجیت به عنوان مثال،

$\ Pr (\ varepsilon <x) = \ operatorname {logit} ^ {- 1} (x)$

سپس:

${\ displaystyle {\ start {تراز شده} \ Pr (Y_ {i} = 1 \ اواسط \ mathbf {X} _ {i}) & = \ Pr (Y_ {i} ^ {\ ast}> 0 \ mid \ mathbf {X} _ {i}) \\ [5pt] & = \ Pr ({\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} + \ varepsilon> 0) \\ [5pt] & = \ Pr (\ varepsilon> - {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}) \\ [5pt] & = \ Pr (\ varepsilon <{\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}) && {\ text {(زیرا توزیع لجستیک متقارن است)}} \\ [5pt] & = \ operatorname {logit} ^ {- 1} ({\ boldsymbol {\ beta}) } \ cdot \ mathbf {X} _ {i}) & \\ [5pt] & = p_ {i} && {\ text {(نگاه کنید به بالا)}} \ end {تراز شده}}}$

این فرمول - که در مدلهای گسسته انتخاب استاندارد است - رابطه بین رگرسیون لجستیک ("مدل logit") و مدل probit را روشن می کند ، که به جای توزیع استاندارد لجستیک از یک متغیر خطا توزیع شده براساس توزیع استاندارد استاندارد استفاده می کند. توزیع های لجستیک و توزیع نرمال با یک شکل منحنی غیر منحنی "منحنی زنگ" متقارن هستند. تنها تفاوت در این است که توزیع لجستیکی دارای دم های تا حدی سنگین تر است ، به این معنی که نسبت به داده های دورتر حساسیت کمتری دارد (و از این رو برای مدل سازی مشخصات غلط یا داده های اشتباه تا حدودی قوی تر است ).

منبع

https://en.wikipedia.org/wiki/Logistic_regression

+ نوشته شده در چهارشنبه نوزدهم شهریور ۱۳۹۹ ساعت 14:10 توسط علی رضا نقش نیلچی |

ریاضیات

آموزش ریاضی