به عنوان یک مدل "ورود به سیستم" ویرایش ]

یک فرمول دیگر ترکیبی از فرمول متغیر پنهان دو طرفه در بالا با فرمول اصلی بالاتر بدون متغیرهای نهفته است و در این فرآیند پیوندی به یکی از فرمول بندی های استاندارد لوجت چند جمله ای را فراهم می کند .

در اینجا ، به جای نوشتن منطق احتمالات i به عنوان یک پیش بینی خطی ، پیش بینی خطی را به دو ، یکی برای هر یک از دو نتیجه جدا می کنیم:

{\ displaystyle {\ start {تراز شده} \ ln \ Pr (Y_ {i} = 0) & = {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i} - \ ln Z \\\ ln \ Pr (Y_ {i} = 1) & = {\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i} - \ ln Z \ end {تراز شده}}}

توجه داشته باشید که دو مجموعه جداگانه از ضرایب رگرسیون ، دقیقاً مانند مدل متغیر پنهان دو طرفه ، معرفی شده اند و دو معادله شکلی به نظر می رسد که لگاریتم احتمال مرتبط را به عنوان پیش بینی خطی ، با یک اصطلاح اضافی می نویسد-lnZدر پایان. این اصطلاح ، همانطور که به نظر می رسد ، به عنوان عامل نرمال سازی اطمینان حاصل می کند که نتیجه توزیع است. این را می توان با بیان هر دو طرف مشاهده کرد:

{\ displaystyle {\ start {تراز شده} \ Pr (Y_ {i} = 0) & = {\ frac {1} {Z}} e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} \\ [5pt] \ Pr (Y_ {i} = 1) & = {\ frac {1} {Z}} e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} \ end {تراز شده}}}

در این شکل مشخص است که هدف Z این است که اطمینان حاصل شود توزیع حاصل از i در واقع یک توزیع احتمالی است ، یعنی مقدار آن 1 است. این بدان معنی است که Z صرفاً جمع کل احتمالات غیر نرمال شده است ، و با تقسیم هر احتمال بر Z ، احتمالات " عادی " می شوند. به این معنا که:

Z = e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf { X} _ {i}}

و معادلات حاصل می شود

{\ displaystyle {\ start {تراز شده} \ Pr (Y_ {i} = 0) & = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i }}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] \ Pr (Y_ {i} = 1) & = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}}. \ end {تراز شده}}}

یا به طور کلی:

\ Pr (Y_ {i} = c) = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {c} \ cdot \ mathbf {X} _ {i}}} {\ sum _ {h} e ^ {{\ boldsymbol {\ beta}} _ {h} \ cdot \ mathbf {X} _ {i}}}}

این امر به روشنی نشان می دهد که چگونه این فرمول را به بیش از دو نتیجه تعمیم دهید ، همانند منطق چند جمله ای . توجه داشته باشید که این فرمول کلی دقیقا است تابع softmax در

\ Pr (Y_ {i} = c) = \ operatorname {softmax} (c، {\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}، {\ boldsymbol {\ beta} } _ {1} \ cdot \ mathbf {X} _ {i} ، \ نقطه).

به منظور اثبات اینکه این معادل مدل قبلی است ، توجه داشته باشید که مدل فوق دارای بیش از حد مشخص شده است 

\ Pr (Y_ {i} = 0) و\ Pr (Y_ {i} = 1) نمی توان به طور مستقل مشخص کرد: بلکه \ Pr (Y_ {i} = 0) + \ Pr (Y_ {i} = 1) = 1بنابراین دانستن یکی به طور خودکار دیگری را تعیین می کند. در نتیجه ، مدل غیرقابل شناسایی است ، به این دلیل که ترکیبات متعدد β 0 و β 1 احتمالات یکسانی را برای همه متغیرهای توضیحی ممکن ایجاد می کند. در حقیقت ، مشاهده می شود که افزودن بردار ثابت به هر دوی آنها احتمالات یکسانی را ایجاد می کند:

{\ displaystyle {\ start {تراز شده} \ Pr (Y_ {i} = 1) & = {\ frac {e ^ {({\ boldsymbol {\ beta}} _ _ {1} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}}} {e ^ {({\ boldsymbol {\ beta}} _ {0} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}} + e ^ {({\ boldsymbol {\ beta}} _ {1} + \ mathbf {C}) \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] & = {\ frac {e ^ {{ \ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol { \ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}}}} \\ [5pt] & = { \ frac {e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}} } {e ^ {\ mathbf {C} \ cdot \ mathbf {X} _ {i}} (e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}})}} \\ [5pt] و= {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} + e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}}. \ end {تراز شده}}}

در نتیجه ، با انتخاب یک مقدار دلخواه برای یکی از دو بردار ، می توانیم امور را ساده و شناسایی کنیم. ما انتخاب می کنیم که تنظیم کنیم{\ boldsymbol {\ beta}} _ {0} = \ mathbf {0}. سپس،

e ^ {{\ boldsymbol {\ beta}} _ {0} \ cdot \ mathbf {X} _ {i}} = e ^ {\ mathbf {0} \ cdot \ mathbf {X} _ {i}} = 1

و همینطور

\ Pr (Y_ {i} = 1) = {\ frac {e ^ {{\ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}} {1 + e ^ {{ \ boldsymbol {\ beta}} _ {1} \ cdot \ mathbf {X} _ {i}}}} = {\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} _ {1 } \ cdot \ mathbf {X} _ {i}}}} = p_ {i}

که نشان می دهد این فرمول در واقع معادل فرمول قبلی است. (همانند فرمول متغیر پنهان دو طرفه ، هر کجا تنظیم شود)

{\ boldsymbol {\ beta}} = {\ boldsymbol {\ beta}} _ {1} - {\ boldsymbol {\ beta}} _ {0} نتایج معادل خواهد داشت.)

توجه داشته باشید که بیشتر درمانهای مدل چند معنایی logit یا با گسترش فرمول "log-linear" ارائه شده در اینجا یا فرمول متغیر پنهان دو طرفه ارائه شده در بالا آغاز می شود ، زیرا هر دو روش ارائه مدل به چند منظوره را به وضوح نشان می دهند نتایج. به طور کلی ، ارائه با متغیرهای نهفته بیشتر در اقتصاد سنجی و علوم سیاسی رایج است ، جایی که مدل های انتخاب گسسته و نظریه سودمندی حاکم است ، در حالی که فرمول "ورود به سیستم" در اینجا بیشتر در علوم کامپیوتر وجود دارد ، به عنوان مثال یادگیری ماشین و پردازش زبان طبیعی .

به عنوان یک گیرنده تک لایه ویرایش ]

مدل دارای فرمول بندی معادل است

p_ {i} = {\ frac {1} {1 + e ^ {- (\ \ beta _ {0} + \ beta _ {1} x_ {1، i} + \ cdots + \ beta _ {k} x_ { k ، i})}}}}. \ ،

به این شکل عملکردی معمولاً یک گیرنده تک لایه یا یک شبکه عصبی مصنوعی تک لایه گفته می شود . یک شبکه عصبی تک لایه به جای تابع گام ، یک خروجی مداوم را محاسبه می کند . مشتق p i با توجه به X  = ( 1 ، ... ، k ) از فرم کلی محاسبه می شود:

y = {\ frac {1} {1 + e ^ {- f (X)}}}

که در آن f ( X ) یک تابع تحلیلی در X است . با استفاده از این انتخاب ، شبکه عصبی تک لایه با مدل رگرسیون لجستیک یکسان است. این تابع دارای یک مشتق مداوم است که اجازه می دهد تا آن را به مورد استفاده در پس انتشار . این تابع همچنین ترجیح داده می شود زیرا مشتق آن به راحتی محاسبه می شود:

{\ frac {\ mathrm {d} y} {\ mathrm {d} X}} = y (1-y) {\ frac {\ mathrm {d} f} {\ mathrm {d} X}}. \،

از نظر داده های دوجمله ای ویرایش ]

مدل نزدیک مرتبط فرض می شود که هر من است نه با یک محاکمه تنها برنولی اما با مرتبط من مستقل توزیع یکسان آزمایش، که در آن مشاهدات من تعداد موفقیتها مشاهده (مجموع فرد متغیرهای تصادفی برنولی توزیع) است، و بنابراین توزیع دو جمله ای را دنبال می کند :

{\ displaystyle Y_ {i} \، \ sim \ operatorname {Bin} (n_ {i}، p_ {i})، {\ text {for}} i = 1، \ dots، n}

نمونه ای از این توزیع کسری بذر ( i ) است که پس از کاشت i جوانه می زند .

از نظر مقادیر مورد انتظار ، این مدل به شرح زیر بیان می شود:

{\ displaystyle p_ {i} = \ operatorname {\ mathcal {E}} \ چپ [\ چپ. {\ frac {Y_ {i}} {n_ {i}}} \ ، \ راست | \ ، \ mathbf {X } _ {i} \ راست] \ ،،}

به طوری که

{\ displaystyle \ operatorname {logit} \ چپ (\ operatorname {\ mathcal {E}} \ چپ [\ چپ. {\ frac {Y_ {i}} {n_ {i}}} \ ، \ راست | \ ، \ mathbf {X} _ {i} \ راست] \ راست) = \ operatorname {logit} (p_ {i}) = \ ln \ چپ ({\ frac {p_ {i}} {1-p_ {i}}} \ راست) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i} \ ،،}

یا معادل آن:

{\ displaystyle \ Pr (Y_ {i} = y \ mid \ mathbf {X} _ {i}) = {n_ {i} \ y} p_ {i} ^ {y} (1-p_ {i}) را انتخاب کنید ^ {n_ {i} -y} = {n_ {i} \ y را انتخاب کنید \ \ سمت چپ ({\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i}}}} \ راست) ^ {y} \ چپ (1 - {\ frac {1} {1 + e ^ {- {\ boldsymbol {\ beta}} \ cdot \ mathbf {X} _ {i }}}} \ راست) ^ {n_ {i} -y} \ ،.}

این مدل را می توان با استفاده از همان روشهای مدل پایه فوق الذکر مناسب دانست.

منبع

https://en.wikipedia.org/wiki/Logistic_regression