ادامه رگرسیون لجستیک
بیزی [ ویرایش ]
مقایسه عملکرد لجستیک با معکوس کوچک تابع پروبیت (یعنی CDF از توزیع نرمال )، مقایسه در مقابل.
، که باعث می شود دامنه ها از مبدا یکسان باشند. این دمهای سنگین توزیع لجستیکی را نشان می دهد .
در یک زمینه آماری بیزی ، توزیع های قبلی معمولاً روی ضرایب رگرسیون قرار می گیرند ، معمولاً به صورت توزیع های گاوسی . هیچ ربطی به قبل از تابع احتمال در رگرسیون لجستیک وجود ندارد. هنگامی که استنتاج بیزی به صورت تحلیلی انجام شد ، این امر محاسبه توزیع خلفی را به جز در ابعاد بسیار پایین دشوار می کند. در حال حاضر، هر چند، نرم افزار به صورت خودکار مانند OpenBUGS ، JAGS ، PyMC3 یا استناجازه می دهد تا این فضای داخلی با استفاده از شبیه سازی محاسبه شود ، بنابراین عدم سازگاری نگران کننده نیست. با این حال ، هنگامی که اندازه نمونه یا تعداد پارامترها زیاد است ، شبیه سازی کامل بیزی می تواند کند باشد و افراد اغلب از روشهای تقریبی مانند روشهای بیزی متنوع و انتشار انتظار استفاده می کنند .
تاریخچه [ ویرایش ]
تاریخچه دقیق رگرسیون لجستیک در کرامر (2002) آورده شده است . عملکرد لجستیکی به عنوان الگویی از رشد جمعیت توسعه یافت و توسط پیر فرانسوا ورهولست در دهه های 1830 و 1840 ، تحت هدایت آدولف کوئیتلت ، "لجستیک" نامگذاری شد . مشاهده عملکرد لجستیک § تاریخچه برای جزئیات بیشتر. [39] در اولین مقاله خود (1838) ، ورهولست مشخص نکرد که چگونه منحنی ها را با داده ها متناسب کند. [40] [41] ورهولست در مقاله مفصل خود (1845) ، سه پارامتر مدل را با عبور منحنی از سه نقطه مشاهده شده تعیین کرد که پیش بینی های ضعیفی را به همراه داشت. [42] [43]
تابع لجستیک به طور مستقل در شیمی به عنوان مدلی از اتوکاتالیز توسعه یافت ( ویلهلم استوالد ، 1883). [44] واكنش اتوكاتاليستي واكنشي است كه در آن يكي از محصولات كاتاليزور همان واكنش است ، در حالي كه تأمين يكي از واکنش دهنده ها ثابت است. این امر به همان دلیل رشد جمعیت باعث ایجاد معادله لجستیک می شود: واکنش خود تقویت کننده است اما محدود کننده است.
عملکرد لجستیک به طور مستقل به عنوان مدلی از رشد جمعیت در سال 1920 توسط ریموند پرل و لاول رید ، منتشر شده به عنوان مروارید و رید (1920) ، کشف شد که منجر به استفاده از آن در آمارهای مدرن شد. آنها در ابتدا از کارهای Verhulst بی اطلاع بودند و احتمالاً در مورد آن از L. Gustave du Pasquier اطلاعاتی کسب کردند ، اما اعتبار کمی به او دادند و اصطلاحات وی را قبول نکردند. [45] اولویت ورهولست تأیید شد و اصطلاح "لجستیکی" توسط اودنی یول در سال 1925 احیا شد و از آن زمان تاکنون دنبال می شود. [46]پرل و رید ابتدا این مدل را در جمعیت ایالات متحده به کار بردند ، و همچنین در ابتدا با عبور از سه نقطه منحنی را متناسب کردند. مانند Verhulst ، این باز هم نتایج ضعیفی به همراه داشت. [47]
در دهه 1930 ، مدل probit توسط Chester Ittner Bliss ، كه اصطلاح "probit" را در Bliss (1934) ، و John Gaddum در Gaddum (1933) ابداع كرد ، توسعه يافت و سيستماتيك شد و مدل با برآورد حداكثر احتمال توسط رونالد A متناسب بود . فیشر در فیشر (1935) ، به عنوان ضمیمه ای برای کارهای Bliss. مدل probit اصولاً در سنجش زیستی مورد استفاده قرار می گرفت و کارهای قبلی با قدمت 1860 قبل از آن انجام شده بود. به مدل Probit see تاریخچه مراجعه کنید . مدل probit در توسعه بعدی مدل logit تأثیرگذار بوده و این مدل ها با یکدیگر رقابت می کنند. [48]
مدل لجستیک احتمالاً اولین بار به عنوان جایگزینی برای مدل probit در سنجش زیستی توسط ادوین بیدول ویلسون و دانش آموز وی جین ووستر در Wilson & Worcester (1943) استفاده شد . [49] با این حال ، توسعه مدل لجستیکی به عنوان یک جایگزین کلی برای مدل probit عمدتا به دلیل کار جوزف برکسون در طی دهه های طولانی بود ، از آغاز در Berkson (1944) ، جایی که او "logit" را با قیاس با " probit "، و از طریق Berkson (1951) و سالهای بعد ادامه دارد. [50] مدل لوجیت در ابتدا به عنوان حقیرتر از مدل probit کنار گذاشته شد ، اما "به تدریج با لوجیت یک پایه مساوی به دست آورد" ، [51]به خصوص بین سالهای 1960 و 1970. تا سال 1970 ، مدل لوجیت با استفاده از مدل probit در مجلات آماری برابری پیدا کرد و پس از آن از آن پیشی گرفت. این محبوبیت نسبی بیش از آنکه جابجایی پروبیت در داخل روش سنجش و استفاده غیررسمی از آن در عمل باشد ، به دلیل پذیرش منطق خارج از روش زیست سنجی بود. محبوبیت logit به دلیل سادگی محاسباتی ، خصوصیات ریاضیات و عمومیت مدل logit شناخته می شود ، که استفاده از آن را در زمینه های مختلف امکان پذیر می کند. [52]
در آن زمان ، به ویژه توسط دیوید کاکس ، مانند کاکس (1958) ، اصلاحات مختلفی انجام شد . [2]
مدل چند معنایی logit به طور مستقل در Cox (1966) و Thiel (1969) معرفی شد که دامنه کاربرد و محبوبیت مدل logit را بسیار افزایش داد. [53] در سال 1973 دانیل مک فادن ، منطق چند جمله ای را به نظریه انتخاب گسسته ، به طور خاص بدیهی انتخاب لوس پیوند داد ، که نشان می دهد این منطق چند جمله ای از فرض استقلال گزینه های بی ربط پیروی می کند و شانس گزینه ها را به عنوان ترجیحات نسبی تفسیر می کند. [54] این مبانی نظری برای رگرسیون لجستیک ایجاد کرد. [53]
برنامه های افزودنی [ ویرایش ]
تعداد زیادی از برنامه های افزودنی وجود دارد:
- رگرسیون لجستیک چند جمله ای (یا logit چند جمله ای ) مورد یک متغیر وابسته دسته ای چند طرفه را کنترل می کند (با مقادیر غیر مرتب ، "طبقه بندی" نیز نامیده می شود). توجه داشته باشید که حالت کلی داشتن متغیرهای وابسته با بیش از دو مقدار ، رگرسیون چند اتمی نامیده می شود .
- رگرسیون لجستیک دستور (یا لوجیت دستور داد ) دسته ترتیبی متغیرهای وابسته (ارزش دستور داد).
- Logit مخلوط یک توسعه از logit چند جمله ای است که امکان ایجاد همبستگی بین گزینه های متغیر وابسته را فراهم می کند.
- گسترش مدل لجستیک به مجموعه متغیرهای وابسته ، زمینه تصادفی مشروط است .
- شرطی رگرسیون لجستیک دسته همسان و یا طبقه بندی داده ها هنگامی که اقشار کوچک هستند. این بیشتر در تجزیه و تحلیل مطالعات مشاهده ای استفاده می شود .
نرم افزار [ ویرایش ]
بیشتر نرم افزارهای آماری می توانند رگرسیون لجستیکی باینری را انجام دهند.
- SPSS
- [1] برای رگرسیون اصلی لجستیک.
- استاتا
- SAS
- PROC LOGISTIC برای رگرسیون اصلی لجستیک.
- PROC CATMOD وقتی همه متغیرها طبقه بندی شوند.
- PROC GLIMMIX برای رگرسیون لجستیک مدل چند سطحی .
- R
- پایتون
- Logitدر ماژول Statsmodels .
- LogisticRegressionدر ماژول Scikit-learn .
- LogisticRegressorدر ماژول TensorFlow .
- مثال کامل رگرسیون لجستیک در آموزش Theano [2]
- رگرسیون لجستیک Bayesian با کد قبلی ARD ، آموزش
- رگرسیون لجستیک Variational Bayes با کد قبلی ARD ، آموزش
- کد رگرسیون لجستیک Bayesian ، آموزش
- NCSS
- متلب
- mnrfitدر جعبه ابزار آماری و یادگیری ماشین (با "نادرست" با کد 2 به جای 0)
- fminunc/fmincon, fitglm, mnrfit, fitclinear, mle همه می توانند رگرسیون لجستیک انجام دهند.
- جاوا ( JVM )
- LibLinear
- آپاچی فلینک
- جرقه آپاچی
- SparkML از رگرسیون لجستیک پشتیبانی می کند
- FPGA
- Logistic Regresesion IP coreدر HLS برای FPGA .
قابل توجه ، بسته الحاقی آماری Microsoft Excel آن را شامل نمی شود.
همچنین به [ ویرایش ] مراجعه کنید
- عملکرد لجستیک
- انتخاب گسسته
- مدل Jarrow – Turnbull
- متغیر وابسته محدود
- مدل چند منظوره logit
- سفارش لوجیت
- آزمون Hosmer – Lemeshow
- نمره بریر
- mlpack - شامل اجرای C ++ برای رگرسیون لجستیک است
- نمونه گیری محلی با کنترل مورد
- درخت مدل لجستیک
منبع
https://en.wikipedia.org/wiki/Logistic_regression