مربع شبه [ ویرایش ]

در رگرسیون خطی همبستگی چندگانه مربع ، R R برای ارزیابی حسن تناسب استفاده می شود زیرا نمایانگر نسبت واریانس در معیاری است که توسط پیش بینی کنندگان توضیح داده شده است. [32] در تجزیه و تحلیل رگرسیون لجستیک ، اندازه گیری مشابهی توافق نشده است ، اما چندین معیار رقابت وجود دارد که هر کدام محدودیت دارند. [32] [33]

چهار شاخص پرکاربرد و یکی کمتر مورد استفاده در این صفحه بررسی شده است:

  • نسبت احتمال R  L
  • کاکس و اسنل R  CS
  • ناگلکرکه R  N
  • McFadden R  McF
  • Tjur R � T

R � L توسط کوهن آورده شده است: [32]

R _ {\ text {L}} ^ {2} = {\ frac {D _ {\ text {null}} - D _ {\ text {fitted}}} {D _ {\ text {null}}}}.

این مشابه ترین شاخص برای همبستگی های چندگانه مربع در رگرسیون خطی است. [27] این نشان دهنده کاهش نسبی انحراف است که در آن انحراف به عنوان معیار اندازه گیری تغییر مقایسه می شود اما یکسان با واریانس در تحلیل رگرسیون خطی نیست . [27] یک محدودیت نسبت احتمال R that این است که به یکنواختی با نسبت شانس ارتباط ندارد ، [32] به این معنی که لزوماً با افزایش نسبت شانس افزایش نمی یابد و لزوماً با کاهش نسبت شانس کاهش نمی یابد.

R � CS یک شاخص جایگزین خوب بودن تناسب مربوط به مقدار R from از رگرسیون خطی است. [33] توسط:

{\ displaystyle {\ start {تراز شده} R _ {\ متن {CS}} ^ {2} & = 1- \ چپ ({\ frac {L_ {0}} {L_ {M}}} \ راست) ^ {2 / n} \\ [5pt] & = 1-e ^ {2 (\ ln (L_ {0}) - \ ln (L_ {M})) / n} \ end {تراز شده}}}

که در آنها L M و  به ترتیب احتمالات مناسب بودن مدل و مدل تهی هستند. شاخص Cox و Snell از آنجا که حداکثر مقدار آن است مشکل ساز است1-L_ {0} ^ {2 / n}. بالاترین حد بالای این می تواند 75/0 باشد ، اما درصورتی که نسبت حاشیه ای موارد اندک باشد ، به راحتی می تواند در 0.48 باشد. [33]

R � N فراهم می کند اصلاح به کاکس و اسنل R � به طوری که ارزش حداکثر با این وجود به 1. برابر باشد، کاکس و اسنل و نسبت احتمال R �s نشان شرایط بیشتر با یکدیگر از هم می کند با Nagelkerke R �. [32] البته این ممکن است در مورد مقادیر بیش از 0.75 وجود نداشته باشد زیرا شاخص کاکس و اسنل در این مقدار محدود شده است. نسبت احتمال R often اغلب به گزینه ها ترجیح داده می شود زیرا بیشترین R � در افزایش رگرسیون خطی است با ، است ، مستقل از نرخ پایه است (هم کاکس و هم اسنل و هم ناگلکرکه R افزایش نسبت موارد از 0 به 0.5) و بین 0 و 1 متغیر است.

R � McF به این صورت تعریف شده است

{\ displaystyle R _ {\ text {McF}} ^ {2} = 1 - {\ frac {\ ln (L_ {M})} {\ ln (L_ {0})}} ،}

و توسط آلیسون بر R � CS ترجیح داده می شود. [33] دو عبارت R � McF و R � CS سپس به ترتیب با

{\ displaystyle {\ start {matrix} R _ {\ text {CS}} ^ {2} = 1- \ چپ ({\ dfrac {1} {L_ {0}}} \ راست) ^ {\ frac {2 ( R _ {\ text {McF}} ^ {2})} {n}} \\ [1.5em] R _ {\ text {McF}} ^ {2} = - {\ dfrac {n} {2}} \ cdot {\ dfrac {\ ln (1-R _ {\ text {CS}} ^ {2})} {\ ln L_ {0}}} \ end {matrix}}}

با این حال ، آلیسون اکنون R � T را ترجیح می دهد که معیار نسبتاً جدیدی است که توسط Tjur ساخته شده است. [34] در دو مرحله قابل محاسبه است: [33]

  1. برای هر سطح از متغیر وابسته ، میانگین احتمالات پیش بینی شده یک رویداد را پیدا کنید.
  2. مقدار مطلق تفاوت بین این معنی را در نظر بگیرید

در هنگام تفسیر آمار شبه R A احتیاط لازم است . دلیل اینکه از این شاخص های تناسب به عنوان شبه R استفاده می شود این است که آنها کاهش متناسب خطا را به عنوان R � در رگرسیون خطی نشان نمی دهند. [32] رگرسیون خطی همسان سازی را فرض می کند ، که واریانس خطا برای همه مقادیر معیار یکسان است. رگرسیون لجستیک همیشه ناهمگن خواهد بود - واریانس خطا برای هر مقدار از امتیاز پیش بینی شده متفاوت است. برای هر مقدار از امتیاز پیش بینی شده مقدار متفاوتی از کاهش متناسب خطا وجود دارد. بنابراین ، فکر کردن در مورد R نامناسب است� به عنوان کاهش متناسب خطا به معنای جهانی در رگرسیون لجستیک. [32]

آزمون Hosmer – Lemeshow ویرایش ]

آزمون Hosmer-Lemeshow با استفاده از یک آماره آزمون که مجانبی به دنبال یک\ چی ^ {2}توزیع برای ارزیابی اینکه آیا نرخ رویداد مشاهده شده با نرخ رویداد مورد انتظار در زیرگروههای جمعیت مدل مطابقت دارد یا نه. این آزمون به دلیل وابستگی به دلخواه پیش بینی شده از احتمال پیش بینی شده و توان نسبی پایین ، از نظر برخی از آمار شناسان منسوخ شده است. [35]

منبع

https://en.wikipedia.org/wiki/Logistic_regression