ادامه رگرسیون لجستیک
به عنوان یک مدل "ورود به سیستم" [ ویرایش ]
یک فرمول دیگر ترکیبی از فرمول متغیر پنهان دو طرفه در بالا با فرمول اصلی بالاتر بدون متغیرهای نهفته است و در این فرآیند پیوندی به یکی از فرمول بندی های استاندارد لوجت چند جمله ای را فراهم می کند .
در اینجا ، به جای نوشتن منطق احتمالات p i به عنوان یک پیش بینی خطی ، پیش بینی خطی را به دو ، یکی برای هر یک از دو نتیجه جدا می کنیم:
توجه داشته باشید که دو مجموعه جداگانه از ضرایب رگرسیون ، دقیقاً مانند مدل متغیر پنهان دو طرفه ، معرفی شده اند و دو معادله شکلی به نظر می رسد که لگاریتم احتمال مرتبط را به عنوان پیش بینی خطی ، با یک اصطلاح اضافی می نویسددر پایان. این اصطلاح ، همانطور که به نظر می رسد ، به عنوان عامل نرمال سازی اطمینان حاصل می کند که نتیجه توزیع است. این را می توان با بیان هر دو طرف مشاهده کرد:
در این شکل مشخص است که هدف Z این است که اطمینان حاصل شود توزیع حاصل از Y i در واقع یک توزیع احتمالی است ، یعنی مقدار آن 1 است. این بدان معنی است که Z صرفاً جمع کل احتمالات غیر نرمال شده است ، و با تقسیم هر احتمال بر Z ، احتمالات " عادی " می شوند. به این معنا که:
و معادلات حاصل می شود
یا به طور کلی:
این امر به روشنی نشان می دهد که چگونه این فرمول را به بیش از دو نتیجه تعمیم دهید ، همانند منطق چند جمله ای . توجه داشته باشید که این فرمول کلی دقیقا است تابع softmax در
به منظور اثبات اینکه این معادل مدل قبلی است ، توجه داشته باشید که مدل فوق دارای بیش از حد مشخص شده است
و
نمی توان به طور مستقل مشخص کرد: بلکه
بنابراین دانستن یکی به طور خودکار دیگری را تعیین می کند. در نتیجه ، مدل غیرقابل شناسایی است ، به این دلیل که ترکیبات متعدد β 0 و β 1 احتمالات یکسانی را برای همه متغیرهای توضیحی ممکن ایجاد می کند. در حقیقت ، مشاهده می شود که افزودن بردار ثابت به هر دوی آنها احتمالات یکسانی را ایجاد می کند:
در نتیجه ، با انتخاب یک مقدار دلخواه برای یکی از دو بردار ، می توانیم امور را ساده و شناسایی کنیم. ما انتخاب می کنیم که تنظیم کنیم سپس،
و همینطور
که نشان می دهد این فرمول در واقع معادل فرمول قبلی است. (همانند فرمول متغیر پنهان دو طرفه ، هر کجا تنظیم شود)
نتایج معادل خواهد داشت.)
توجه داشته باشید که بیشتر درمانهای مدل چند معنایی logit یا با گسترش فرمول "log-linear" ارائه شده در اینجا یا فرمول متغیر پنهان دو طرفه ارائه شده در بالا آغاز می شود ، زیرا هر دو روش ارائه مدل به چند منظوره را به وضوح نشان می دهند نتایج. به طور کلی ، ارائه با متغیرهای نهفته بیشتر در اقتصاد سنجی و علوم سیاسی رایج است ، جایی که مدل های انتخاب گسسته و نظریه سودمندی حاکم است ، در حالی که فرمول "ورود به سیستم" در اینجا بیشتر در علوم کامپیوتر وجود دارد ، به عنوان مثال یادگیری ماشین و پردازش زبان طبیعی .
به عنوان یک گیرنده تک لایه [ ویرایش ]
مدل دارای فرمول بندی معادل است
به این شکل عملکردی معمولاً یک گیرنده تک لایه یا یک شبکه عصبی مصنوعی تک لایه گفته می شود . یک شبکه عصبی تک لایه به جای تابع گام ، یک خروجی مداوم را محاسبه می کند . مشتق p i با توجه به X = ( x 1 ، ... ، x k ) از فرم کلی محاسبه می شود:
که در آن f ( X ) یک تابع تحلیلی در X است . با استفاده از این انتخاب ، شبکه عصبی تک لایه با مدل رگرسیون لجستیک یکسان است. این تابع دارای یک مشتق مداوم است که اجازه می دهد تا آن را به مورد استفاده در پس انتشار . این تابع همچنین ترجیح داده می شود زیرا مشتق آن به راحتی محاسبه می شود:
از نظر داده های دوجمله ای [ ویرایش ]
مدل نزدیک مرتبط فرض می شود که هر من است نه با یک محاکمه تنها برنولی اما با مرتبط N من مستقل توزیع یکسان آزمایش، که در آن مشاهدات Y من تعداد موفقیتها مشاهده (مجموع فرد متغیرهای تصادفی برنولی توزیع) است، و بنابراین توزیع دو جمله ای را دنبال می کند :
نمونه ای از این توزیع کسری بذر ( p i ) است که پس از کاشت n i جوانه می زند .
از نظر مقادیر مورد انتظار ، این مدل به شرح زیر بیان می شود:
به طوری که
یا معادل آن:
این مدل را می توان با استفاده از همان روشهای مدل پایه فوق الذکر مناسب دانست.
منبع
https://en.wikipedia.org/wiki/Logistic_regression