با فرض نرمال بودن ویرایش ]

خصوصیاتی که تاکنون ذکر شده اند ، صرف نظر از توزیع اساسی اصطلاحات خطا ، معتبر هستند. با این حال، اگر شما مایل به فرض کنیم که می فرض نرمال نگه می دارد (این است که، که ε ~ N (0، σ من N ) )، سپس خصوصیات اضافی از OLS تخمین زننده می توان گفت.

برآوردگر \ scriptstyle {\ hat {\ beta}}به طور معمول توزیع می شود ، با میانگین و واریانس همانطور که قبلا داده شد: [23]{\ displaystyle {\ hat {\ beta}} \ \ sim \ {\ mathcal {N}} {\ big (} \ beta، \ \ sigma ^ {2} (X ^ {\ mathrm {T}} X) ^ {-1} {\ بزرگ)}}

که در آن Q است ماتریس کوفاکتور . این برآوردگر به مدل کرامر-رائو می رسد و بنابراین در کلاس همه برآوردگرهای بی طرف بهینه است. [15] توجه داشته باشید که برخلاف قضیه گاوس - مارکوف ، این نتیجه در بین برآوردگرهای خطی و غیر خطی بهینه سازی می کند ، اما فقط در مورد اصطلاحات خطای توزیع شده معمول.

برآوردگر بازدید کنندگان 2 متناسب خواهد بود به توزیع کیدو : [24]

s ^ {2} \ \ sim \ {\ frac {\ sigma ^ {2}} {np}} \ cdot \ chi _ {np} ^ {2}

واریانس این برآوردگر برابر است با σ 4 / ( N  -  P ) ، که رسیدن به نه کرامر-رائو محدود از σ 4 / N . با این حال نشان داده شد که هیچ برآوردگرهای بی طرفانه از وجود دارد σ 2 با واریانس کوچکتر از از برآوردگر بازدید کنندگان 2 . [25] اگر ما می خواهیم برآوردگرهای مغرضانه را مجاز بدانیم و طبقه برآوردگرهایی را كه متناسب با مجموع باقیمانده های مربع (SSR) مدل هستند در نظر بگیریم ، بهترین (به معنای خطای مربع میانگین ) برآوردگر در این کلاس می شود ~σ 2 = SSR  /  ( n  -  p  + 2) ، که حتی در صورت وجود فقط یک رگرسور Cramér – Rao را می بندد ( p = 1 ). [26]

علاوه بر این ، برآوردگرها \ scriptstyle {\ hat {\ beta}}و مستقل هستند ، [27] این واقعیت که در ساخت تستهای t و F برای رگرسیون مفید واقع می شود.

مشاهدات تأثیرگذار ویرایش ]

مقاله اصلی: مشاهده تأثیرگذار

همچنین نگاه کنید به: اهرم نیرو (آمار)

همانطور که قبلا ذکر شد ، برآوردگر {\ کلاه {\ بتا}}در y خطی است ، به این معنی که ترکیبی خطی از متغیرهای وابسته y i را نشان می دهد . وزن های این ترکیب خطی توابع رگرسیون X هستند و به طور کلی نابرابر هستند. مشاهدات با وزن زیاد را تأثیرگذار می نامند زیرا تأثیر بارزتری بر ارزش برآوردگر دارند.

برای تجزیه و تحلیل اینکه مشاهدات تأثیرگذار هستند ، ما یک مشاهده خاص j را حذف می کنیم و در نظر می گیریم که مقادیر برآورد شده چه مقدار تغییر می کند (به طور مشابه روش jackknife ). می توان نشان داد که تغییر در برآوردگر OLS برای β برابر خواهد بود با [28]

{\ displaystyle {\ hat {\ beta}} ^ {(j)} - {\ hat {\ beta}} = - {\ frac {1} {1-h_ {j}}} (X ^ {\ mathrm { T}} X) ^ {- 1} x_ {j} ^ {\ mathrm {T}} {\ hat {\ varepsilon}} _ {j} \ ،،}

که در آن ساعت J = X J T  ( X ) -1 X J است J عنصر مورب هفتم از ماتریس کلاه P و X J بردار رگرسورها مربوط به است J مشاهده هفتم. به طور مشابه ، تغییر در مقدار پیش بینی شده برای مشاهده j -th ناشی از حذف این مشاهده از مجموعه داده برابر خواهد بود با [28]

{\ displaystyle {\ hat {y}} _ {j} ^ {(j)} - {\ hat {y}} _ {j} = x_ {j} ^ {\ mathrm {T}} {\ hat {\ بتا}} ^ {(j)} - x_ {j} ^ {T} {\ hat {\ beta}} = - {\ frac {h_ {j}} {1-h_ {j}}} \ ، {\ کلاه {\ varepsilon}} _ {j}}

از خواص ماتریس کلاه ، 0 ≤ h j ≤ 1 ، و آنها جمع می شوند تا p ، به طوری که به طور متوسط h j ≈ p / n . این کمیت ها ساعت J هستند به نام اهرم ، و مشاهدات با بالا ساعت J به نام نقطه اهرم . [29] معمولاً مشاهدات با اهرم بالا باید با دقت بیشتری مورد بررسی قرار گیرند ، درصورت اشتباه بودن یا دور بودن یا به طریقی غیرمعمول از بقیه مجموعه داده ها.

رگرسیون تقسیم شده ویرایش ]

گاهی اوقات متغیرها و پارامترهای مربوطه در رگرسیون را می توان به طور منطقی به دو گروه تقسیم کرد ، تا رگرسیون شکل بگیرد

y = X_ {1} \ beta _ {1} + X_ {2} \ beta _ {2} + \ varepsilon ،

که در آن 1 و 2 دارای ابعاد N × ص 1 ، N × ص 2 ، و β 1 ، β 2 هستند ص 1 × 1 و 2 × 1 بردار، با ص 1 + 2 = P .

قضیه افدبلیوال بیان می کند که در این رگرسیون باقیمانده{\ کلاه {\ varepsilon}} و تخمین\ scriptstyle {\ hat {\ beta}} _ {2}از نظر عددی با مانده و تخمین OLS برای β 2 در رگرسیون زیر یکسان خواهد بود : [30]M_ {1} y = M_ {1} X_ {2} \ beta _ {2} + \ eta \ ،،

که در آن 1 است ماتریس نابود برای رگرسورها 1 .

از قضیه می توان برای ایجاد تعدادی از نتایج نظری استفاده کرد. به عنوان مثال ، داشتن یک رگرسیون با یک ثابت و یک رگرسور دیگر معادل کم کردن میانگین از متغیر وابسته و رگرسیون و سپس اجرای رگرسیون برای متغیرهای معنی دار است اما بدون مدت ثابت.

برآورد محدود ویرایش ]

مقاله اصلی: رگرسیون ریج

فرض کنید معلوم است که ضرایب در رگرسیون یک سیستم معادلات خطی را برآورده می کند

{\ displaystyle A \ colon \ quad Q ^ {T} \ beta = c، \،}

که در آن Q یک ماتریس p × q با درجه کامل است ، و c یک بردار q × 1 از ثابت های شناخته شده است ، که در آن q  . در این مورد حداقل برآورد مربع معادل حداقل رساندن مجموع باقیمانده مربع از موضوع مدل به محدودیت است . حداقل مربعات محدود (CLS) برآوردگر را می توان با یک فرمول واضح داده شود: [31]

{\ displaystyle {\ hat {\ beta}} ^ {c} = {\ hat {\ beta}} - (X ^ {T} X) ^ {- 1} Q {\ Big (} Q ^ {T} ( X ^ {T} X) ^ {- 1} Q {\ Big)} ^ {- 1} (Q ^ {T} {\ hat {\ beta}} - c).}

این عبارت برای برآوردگر محدود تا زمانی معتبر است که ماتریس X T X وارون باشد. از ابتدای این مقاله فرض بر این بود که این ماتریس از درجه کامل برخوردار است ، و اشاره شد که وقتی شرط رتبه خراب شود ، β قابل شناسایی نیست. با این حال ممکن است اتفاق بیفتد که افزودن محدودیت A باعث شناسایی β شود ، در این صورت شخص می خواهد فرمول برآوردگر را پیدا کند. برآورد کننده برابر است با [32]

{\ hat {\ beta}} ^ {c} = R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} y + {\ Big (} I_ { p} -R (R ^ {T} X ^ {T} XR) ^ {- 1} R ^ {T} X ^ {T} X {\ بزرگ)} Q (Q ^ {T} Q) ^ {- 1} c ،

که در آن R یک ماتریس p × ( p  -  q ) است به طوری که ماتریس [ QR ] غیر مفرد است و R T Q = 0 . چنین ماتریسی را همیشه می توان یافت ، اگرچه به طور کلی منحصر به فرد نیست. مصادف فرمول دوم با برای اولین بار در مورد زمانی که X T X معکوس است. [32]

منبع

https://en.wikipedia.org/wiki/Ordinary_least_squares