اتصالات مدل [ ویرایش ]
این بخش نیاز به توسعه دارد . با افزودن به آن می توانید کمک کنید . ( اکتبر 2016 ) |
رگرسیون لجستیک یک الگوریتم مهم یادگیری ماشین است. هدف مدل سازی احتمال یک متغیر تصادفی است0 یا 1 داده تجربی است. [22]
یک تابع مدل خطی کلی را در نظر بگیرید که توسط آن پارامتر شده است،
از این رو،
و از ، ما می بینیم که
از رابطه زیر بدست می آید
در حال حاضر تابع احتمال را محاسبه می کنیم با این فرض که همه مشاهدات موجود در نمونه به طور مستقل توزیع شده است
به طور معمول ، احتمال ورود به سیستم حداکثر است ،
که با استفاده از تکنیک های بهینه سازی مانند نزول شیب به حداکثر می رسد .
با فرض جفتها به طور یکنواخت از توزیع اساسی کشیده می شوند ، سپس در حد N بزرگ ،
جایی که است که مشروط آنتروپی و
است واگرایی کولبک-Leibler . این منجر به این شهود می شود که با به حداکثر رساندن احتمال ورود مدل ، شما واگرایی KL مدل خود را از توزیع حداکثر آنتروپی به حداقل می رسانید. به صورت شهودی مدلی را جستجو می کنید که کمترین فرض را در پارامترهای آن دارد.
"قانون ده" [ ویرایش ]
مقاله اصلی: از هر ده قانون یک قانون
یک قانون کلی که به طور گسترده مورد استفاده قرار می گیرد ، " یک در ده قانون " بیان می کند که مدل های رگرسیون لجستیک اگر بر اساس حداقل 10 رویداد در هر متغیر توضیحی (EPV) باشد ، مقادیر پایداری را برای متغیرهای توضیحی می دهند. که در آن رویداد مواردی را نشان می دهد که به دسته کمتر متغیر وابسته تعلق دارند. بنابراین یک مطالعه طراحی شده برای استفادهمتغیرهای توضیحی برای یک واقعه (به عنوان مثال سکته قلبی ) انتظار می رود به تناسب رخ دهد
از شرکت کنندگان در این مطالعه به کل نیاز دارند
شركت كنندگان. با این حال ، بحث قابل توجهی در مورد قابلیت اطمینان این قاعده وجود دارد ، که براساس مطالعات شبیه سازی است و فاقد پشتوانه نظری ایمن است. [23] به گفته برخی از نویسندگان [24] این قانون بیش از حد محافظه کارانه است ، برخی شرایط با بیان نویسندگان "اگر (تا حدودی ذهنی) پوشش فاصله اطمینان کمتر از 93 درصد ، خطای نوع I بیشتر از 7 درصد یا تعصب نسبی بیشتر از 15 درصد را مشکل ساز بدانیم ، نتایج ما نشان می دهد که مشکلات با 2 تا 4 نسبتاً مکرر است EPV ، با 5-9 EPV غیر معمول است ، و هنوز هم با 10-16 EPV مشاهده می شود. بدترین موارد هر مشکل با 5-9 EPV شدید نبوده و معمولاً با کسانی که دارای 10-16 EPV هستند قابل مقایسه است. " [25]
برخی دیگر با استفاده از معیارهای مختلف به نتایجی دست یافته اند که با موارد فوق سازگار نیست. یک معیار مفید این است که آیا از مدل نصب شده انتظار می رود در یک نمونه جدید همان تبعیض پیش بینی را که در نمونه توسعه مدل به دست آورد ، به دست آورد. برای این معیار ، 20 رویداد برای هر متغیر کاندیدا ممکن است لازم باشد. [26] همچنین ، می توان ادعا کرد که 96 مشاهدات فقط برای تخمین رهگیری مدل به اندازه کافی لازم است که حاشیه خطا در احتمالات پیش بینی شده ± 0.1 ± با سطح اطمینان 0.95 باشد. [16]
برآورد حداکثر احتمال (MLE) [ ویرایش ]
ضرایب رگرسیون معمولاً با استفاده از برآورد حداکثر احتمال برآورد می شود. [27] [28] برخلاف رگرسیون خطی با باقیمانده هایی که به طور معمول توزیع می شوند ، یافتن یک عبارت بسته برای مقادیر ضریب که تابع احتمال را به حداکثر می رساند ، امکان پذیر نیست ، بنابراین باید به جای آن از یک فرایند تکراری استفاده شود. به عنوان مثال روش نیوتن . این فرایند با یک راه حل آزمایشی آغاز می شود ، کمی آن را تجدید نظر می کند تا ببیند آیا می توان آن را بهبود بخشید و این اصلاح را تکرار می کند تا زمانی که دیگر بهبودی حاصل نشود ، در آن زمان گفته می شود که فرآیند همگرا شده است. [27]
در بعضی موارد ، ممکن است مدل به همگرایی نرسد. عدم همگرایی یک مدل نشان می دهد که ضرایب معنی دار نیستند زیرا فرآیند تکراری قادر به یافتن راه حل های مناسب نبود. عدم همگرایی ممکن است برای تعدادی از دلایل رخ می دهد: داشتن یک نسبت زیادی از پیش بینی به موارد، چند خطی ، کم پشتی و یا کامل جدایی .
- داشتن نسبت زیادی از متغیرها به موارد منجر به آماری بیش از حد محافظه کارانه والد می شود (که در زیر بحث می شود) و می تواند منجر به عدم همگرایی شود. رگرسیون لجستیک منظم به طور خاص در نظر گرفته شده است تا در این شرایط استفاده شود.
- چند خطی بودن به همبستگی غیر قابل قبول زیاد بین پیش بینی کننده ها اشاره دارد. با افزایش چند خطی بودن ، ضرایب بی طرف باقی می مانند اما خطاهای استاندارد افزایش می یابند و احتمال همگرایی مدل کاهش می یابد. [27] برای تشخیص چند خطی بودن در بین پیش بینی کننده ها ، می توان یک تحلیل رگرسیون خطی را با پیش بینی کننده های مورد نظر برای تنها هدف بررسی آمار تحمل انجام داد [27] برای ارزیابی اینکه آیا چند خطی بودن غیر قابل قبول است یا خیر.
- پراکندگی داده ها به داشتن تعداد زیادی سلول خالی (سلول هایی با تعداد صفر) اشاره دارد. شمارش سلول های صفر به ویژه در پیش بینی های طبقه ای مشکل ساز است. با پیش بینی های مداوم ، مدل می تواند مقادیر شمارش سلول های صفر را استنباط کند ، اما این در مورد پیش بینی های طبقه ای صدق نمی کند. این مدل برای پیش بینی های طبقه ای با تعداد سلول های صفر همگرا نخواهد شد زیرا لگاریتم طبیعی صفر یک مقدار تعریف نشده است بنابراین نمی توان به راه حل نهایی مدل رسید. برای رفع این مشکل ، محققان ممکن است دسته ها را به روشی معنادار از بین ببرند یا یک ثابت را به همه سلول ها اضافه کنند. [27]
- مسئله عددی دیگری که ممکن است منجر به عدم همگرایی شود جداسازی کامل است ، که به نمونه ای اشاره دارد که در آن پیش بینی کننده ها معیار را کاملاً پیش بینی می کنند - همه موارد به طور دقیق طبقه بندی می شوند. در چنین مواردی ، باید داده ها را دوباره بررسی کرد ، زیرا احتمالاً نوعی خطا وجود دارد. [15] [ توضیح بیشتر لازم است ]
- همچنین می توان از رویکردهای نیمه پارامتری یا غیرپارامتری استفاده کرد ، به عنوان مثال ، از طریق روش های شبه احتمال محلی یا غیرپارامتری ، که از فرض های فرم پارامتری برای تابع شاخص جلوگیری می کند و در انتخاب تابع پیوند محکم است (به عنوان مثال ، probit یا logit) [29]
منبع
https://en.wikipedia.org/wiki/Logistic_regression
در این وبلاگ به ریاضیات و کاربردهای آن و تحقیقات در آنها پرداخته می شود. مطالب در این وبلاگ ترجمه سطحی و اولیه است و کامل نیست.در صورتی سوال یا نظری در زمینه ریاضیات دارید مطرح نمایید .در صورت امکان به آن می پردازم. من دوست دارم برای یافتن پاسخ به سوالات و حل پروژه های علمی با دیگران همکاری نمایم.در صورتی که شما هم بامن هم عقیده هستید با من تماس بگیرید.