ادامه رگرسیون لجستیک

به عنوان یک مدل "ورود به سیستم" [ ویرایش ]

یک فرمول دیگر ترکیبی از فرمول متغیر پنهان دو طرفه در بالا با فرمول اصلی بالاتر بدون متغیرهای نهفته است و در این فرآیند پیوندی به یکی از فرمول بندی های استاندارد لوجت چند جمله ای را فراهم می کند .

در اینجا ، به جای نوشتن منطق احتمالات p i به عنوان یک پیش بینی خطی ، پیش بینی خطی را به دو ، یکی برای هر یک از دو نتیجه جدا می کنیم:

${\ displaystyle {\ start {تراز شده} \ ln \ Pr (Y_ {i} = 0) & = {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i} - \ ln Z \\\ ln \ Pr (Y_ {i} = 1) & = {\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i} - \ ln Z \ end {تراز شده}}}$

توجه داشته باشید که دو مجموعه جداگانه از ضرایب رگرسیون ، دقیقاً مانند مدل متغیر پنهان دو طرفه ، معرفی شده اند و دو معادله شکلی به نظر می رسد که لگاریتم احتمال مرتبط را به عنوان پیش بینی خطی ، با یک اصطلاح اضافی می نویسد $-lnZ$ در پایان. این اصطلاح ، همانطور که به نظر می رسد ، به عنوان عامل نرمال سازی اطمینان حاصل می کند که نتیجه توزیع است. این را می توان با بیان هر دو طرف مشاهده کرد:

${\ displaystyle {\ start {تراز شده} \ Pr (Y_ {i} = 0) & = {\ frac {1} {Z}} e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} \\ [5pt] \ Pr (Y_ {i} = 1) & = {\ frac {1} {Z}} e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} \ end {تراز شده}}}$

در این شکل مشخص است که هدف Z این است که اطمینان حاصل شود توزیع حاصل از Y i در واقع یک توزیع احتمالی است ، یعنی مقدار آن 1 است. این بدان معنی است که Z صرفاً جمع کل احتمالات غیر نرمال شده است ، و با تقسیم هر احتمال بر Z ، احتمالات " عادی " می شوند. به این معنا که:

$Z = e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf { X} _ {i}}$

و معادلات حاصل می شود

${\ displaystyle {\ start {تراز شده} \ Pr (Y_ {i} = 0) & = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i }}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] \ Pr (Y_ {i} = 1) & = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}}. \ end {تراز شده}}}$

یا به طور کلی:

$\ Pr (Y_ {i} = c) = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {c} \ cdot \ mathbf {X} _ {i}}} {\ sum _ {h} e ^ {{\ boldsymbol {\ beta}} _ {h} \ cdot \ mathbf {X} _ {i}}}}$

این امر به روشنی نشان می دهد که چگونه این فرمول را به بیش از دو نتیجه تعمیم دهید ، همانند منطق چند جمله ای . توجه داشته باشید که این فرمول کلی دقیقا است تابع softmax در

$\ Pr (Y_ {i} = c) = \ operatorname {softmax} (c، {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}، {\ boldsymbol {\ beta} } _ {1} \ cdot \ mathbf {X} _ {i} ، \ نقطه).$

به منظور اثبات اینکه این معادل مدل قبلی است ، توجه داشته باشید که مدل فوق دارای بیش از حد مشخص شده است

$\ Pr (Y_ {i} = 0)$ و $\ Pr (Y_ {i} = 1)$ نمی توان به طور مستقل مشخص کرد: بلکه $\ Pr (Y_ {i} = 0) + \ Pr (Y_ {i} = 1) = 1$ بنابراین دانستن یکی به طور خودکار دیگری را تعیین می کند. در نتیجه ، مدل غیرقابل شناسایی است ، به این دلیل که ترکیبات متعدد β 0 و β 1 احتمالات یکسانی را برای همه متغیرهای توضیحی ممکن ایجاد می کند. در حقیقت ، مشاهده می شود که افزودن بردار ثابت به هر دوی آنها احتمالات یکسانی را ایجاد می کند:

${\ displaystyle {\ start {تراز شده} \ Pr (Y_ {i} = 1) & = {\ frac {e ^ {({\ boldsymbol {\ beta}} _ _ {1} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}}} {e ^ {({\ boldsymbol {\ beta}} _ {0} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}} + e ^ {({\ boldsymbol {\ beta}} _ {1} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] & = {\ frac {e ^ {{ \ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol { \ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] & = { \ frac {e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} } {e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} (e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}})}} \\ [5pt] و= {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}}. \ end {تراز شده}}}$

در نتیجه ، با انتخاب یک مقدار دلخواه برای یکی از دو بردار ، می توانیم امور را ساده و شناسایی کنیم. ما انتخاب می کنیم که تنظیم کنیم ${\ boldsymbol {\ beta}} _ {0} = \ mathbf {0}.$ سپس،

$e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} = e ^ {\ mathbf {0} \ cdot \ mathbf {X} _ {i}} = 1$

و همینطور

$\ Pr (Y_ {i} = 1) = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {1 + e ^ {{ \ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}} = {\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} _ {1 } \ cdot \ mathbf {X} _ {i}}}} = p_ {i}$

که نشان می دهد این فرمول در واقع معادل فرمول قبلی است. (همانند فرمول متغیر پنهان دو طرفه ، هر کجا تنظیم شود)

${\ boldsymbol {\ beta}} = {\ boldsymbol {\ beta}} _ {1} - {\ boldsymbol {\ beta}} _ {0}$ نتایج معادل خواهد داشت.)

توجه داشته باشید که بیشتر درمانهای مدل چند معنایی logit یا با گسترش فرمول "log-linear" ارائه شده در اینجا یا فرمول متغیر پنهان دو طرفه ارائه شده در بالا آغاز می شود ، زیرا هر دو روش ارائه مدل به چند منظوره را به وضوح نشان می دهند نتایج. به طور کلی ، ارائه با متغیرهای نهفته بیشتر در اقتصاد سنجی و علوم سیاسی رایج است ، جایی که مدل های انتخاب گسسته و نظریه سودمندی حاکم است ، در حالی که فرمول "ورود به سیستم" در اینجا بیشتر در علوم کامپیوتر وجود دارد ، به عنوان مثال یادگیری ماشین و پردازش زبان طبیعی .

به عنوان یک گیرنده تک لایه [ ویرایش ]

مدل دارای فرمول بندی معادل است

$p_ {i} = {\ frac {1} {1 + e ^ {- (\ \ beta _ {0} + \ beta _ {1} x_ {1، i} + \ cdots + \ beta _ {k} x_ { k ، i})}}}}. \ ،$

به این شکل عملکردی معمولاً یک گیرنده تک لایه یا یک شبکه عصبی مصنوعی تک لایه گفته می شود . یک شبکه عصبی تک لایه به جای تابع گام ، یک خروجی مداوم را محاسبه می کند . مشتق p i با توجه به X = ( x 1 ، ... ، x k ) از فرم کلی محاسبه می شود:

$y = {\ frac {1} {1 + e ^ {- f (X)}}}$

که در آن f ( X ) یک تابع تحلیلی در X است . با استفاده از این انتخاب ، شبکه عصبی تک لایه با مدل رگرسیون لجستیک یکسان است. این تابع دارای یک مشتق مداوم است که اجازه می دهد تا آن را به مورد استفاده در پس انتشار . این تابع همچنین ترجیح داده می شود زیرا مشتق آن به راحتی محاسبه می شود:

${\ frac {\ mathrm {d} y} {\ mathrm {d} X}} = y (1-y) {\ frac {\ mathrm {d} f} {\ mathrm {d} X}}. \،$

از نظر داده های دوجمله ای [ ویرایش ]

مدل نزدیک مرتبط فرض می شود که هر من است نه با یک محاکمه تنها برنولی اما با مرتبط N من مستقل توزیع یکسان آزمایش، که در آن مشاهدات Y من تعداد موفقیتها مشاهده (مجموع فرد متغیرهای تصادفی برنولی توزیع) است، و بنابراین توزیع دو جمله ای را دنبال می کند :

${\ displaystyle Y_ {i} \، \ sim \ operatorname {Bin} (n_ {i}، p_ {i})، {\ text {for}} i = 1، \ dots، n}$

نمونه ای از این توزیع کسری بذر ( p i ) است که پس از کاشت n i جوانه می زند .

از نظر مقادیر مورد انتظار ، این مدل به شرح زیر بیان می شود:

${\ displaystyle p_ {i} = \ operatorname {\ mathcal {E}} \ چپ [\ چپ. {\ frac {Y_ {i}} {n_ {i}}} \ ، \ راست | \ ، \ mathbf {X } _ {i} \ راست] \ ،،}$

به طوری که

${\ displaystyle \ operatorname {logit} \ چپ (\ operatorname {\ mathcal {E}} \ چپ [\ چپ. {\ frac {Y_ {i}} {n_ {i}}} \ ، \ راست | \ ، \ mathbf {X} _ {i} \ راست] \ راست) = \ operatorname {logit} (p_ {i}) = \ ln \ چپ ({\ frac {p_ {i}} {1-p_ {i}}} \ راست) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} \ ،،}$

یا معادل آن:

${\ displaystyle \ Pr (Y_ {i} = y \ mid \ mathbf {X} _ {i}) = {n_ {i} \ y} p_ {i} ^ {y} (1-p_ {i}) را انتخاب کنید ^ {n_ {i} -y} = {n_ {i} \ y را انتخاب کنید \ \ سمت چپ ({\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}}} \ راست) ^ {y} \ چپ (1 - {\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i }}}} \ راست) ^ {n_ {i} -y} \ ،.}$

این مدل را می توان با استفاده از همان روشهای مدل پایه فوق الذکر مناسب دانست.

منبع

https://en.wikipedia.org/wiki/Logistic_regression

+ نوشته شده در چهارشنبه نوزدهم شهریور ۱۳۹۹ ساعت 14:16 توسط علی رضا نقش نیلچی |

ریاضیات

آموزش ریاضی