فرمول ماتریس / بردار ویرایش ]

یک سیستم بیش از حد تعیین شده را در نظر بگیرید

{\ displaystyle \ sum _ {j = 1} ^ {p} X_ {ij} \ beta _ {j} = y_ {i}، \ (i = 1،2، \ dots، n)،}

از معادلات خطی در ص ناشناخته ضرایب ، بتا 1 ، بتا 2 ، ...، β ص ، با N > P . (توجه: برای یک مدل خطی مانند بالا ، همه X حاوی اطلاعات مربوط به نقاط داده نیست. ستون اول با ستونهایی جمع شده است ،{\ displaystyle X_ {i1} = 1}، فقط ستون های دیگر حاوی داده های واقعی هستند ، بنابراین در اینجا p = تعداد تنظیم کننده ها + 1) این را می توان به صورت ماتریس به صورت زیر نوشت:

{\ displaystyle \ mathrm {X} {\ boldsymbol {\ beta}} = \ mathbf {y} ،}

جایی که

{\ displaystyle \ mathrm {X} = {\ start {bmatrix} X_ {11} & X_ {12} & \ cdots & X_ {1p} \\ X_ {21} & X_ {22} & \ cdots & X_ {2p} \\\ vdots & \ vdots & \ ddots & \ vdots \\ X_ {n1} & X_ {n2} & \ cdots & X_ {np} \ end {bmatrix}} ، \ qquad {\ boldsymbol {\ beta}} = {\ start {bmatrix } \ beta _ {1} \\\ beta _ {2} \\\ vdots \\\ beta _ {p} \ end {bmatrix}} ، \ qquad \ mathbf {y} = {\ start {bmatrix} y_ { 1} \\ y_ {2} \\\ vdots \\ y_ {n} \ end {bmatrix}}.}

چنین سیستمی معمولاً راه حل دقیقی ندارد ، بنابراین هدف این است که ضرایب را پیدا کنید{\ boldsymbol {\ beta}}که به معنای حل مسئله کوچک سازی درجه دوم ، معادلات "بهترین" است

{\ hat {\ boldsymbol {\ beta}}} = {\ underset {\ boldsymbol {\ beta}} {\ operatorname {arg \، min}}} \، S ({\ boldsymbol {\ beta}}) ،

که در آن تابع هدف S توسط داده می شود

{\ displaystyle S ({\ boldsymbol {\ beta}}) = \ sum _ {i = 1} ^ {n} {\ biggl |} y_ {i} - \ sum _ {j = 1} ^ {p} X_ {ij} \ beta _ {j} {\ biggr |} ^ {2} = {\ bigl \ |} \ mathbf {y} - \ mathrm {X} {\ boldsymbol {\ beta}} {\ bigr \ |} ^ {2}.}

توجیهی برای انتخاب این معیار در Properties در زیر آورده شده است. این مسئله به حداقل رساندن یک راه حل منحصر به فرد دارد ، به شرطی که ستونهای p ماتریس X به طور خطی مستقل باشند ، با حل معادلات نرمال

{\ displaystyle (\ mathrm {X} ^ {\ mathsf {T}} \ mathrm {X}) {\ hat {\ boldsymbol {\ beta}}} = \ mathrm {X} ^ {\ mathsf {T}} \ mathbf {y} \.}

ماتریکس {\ displaystyle \ mathrm {X} ^ {\ mathsf {T}} \ mathbf {y}}توسط رگرسیون ها به عنوان ماتریس لحظه برگشت و شناخته می شود. [1] سرانجام ،{\ hat {\ boldsymbol {\ beta}}}بردار ضریب حداقل مربعات است ابرصفحه ، به عنوان بیان شده

{\ displaystyle {\ hat {\ boldsymbol {\ beta}}} = \ left (\ mathrm {X} ^ {\ mathsf {T}} \ mathrm {X} \ right) ^ {- 1} \ mathrm {X} ^ {\ mathsf {T}} \ mathbf {y}.}

برآورد ویرایش ]

فرض کنید b یک مقدار "نامزد" برای بردار پارامتر β است . مقدار y i - x i T b ، که برای مشاهده i -th باقیمانده نامیده می شود ، فاصله عمودی بین نقطه داده i ، i ) و ابر هواپیما y = b را اندازه گیری می کند ، و بنابراین درجه بین داده های واقعی و مدل متناسب است. مجموع باقیمانده مربع ( SSR ) (همچنین به نام مجموع خطا از مربع (ESS ) یا مجموع باقیمانده مربعات ( RSS )) [2] معیاری برای تناسب مدل کلی است:

{\ displaystyle S (b) = \ sum _ {i = 1} ^ {n} (y_ {i} -x_ {i} ^ {\ mathrm {T}} b) ^ {2} = (y-Xb) ^ {\ mathrm {T}} (y-Xb) ،}

جایی که T نشانگر جابجایی ماتریس است ، و ردیف های X ، نشانگر مقادیر تمام متغیرهای مستقل مرتبط با یک مقدار خاص از متغیر وابسته ، X i = x i T هستند . مقدار b که این جمع را به حداقل می رساند ، برآوردگر OLS برای β نامیده می شود . تابع S ( b ) در b با Hessian مثبت مشخص درجه دوم است و بنابراین این تابع دارای حداقل جهانی منحصر به فرد درb = {\ کلاه {\ بتا}}، که می تواند با فرمول صریح ارائه شود: [3] [اثبات]

{\ displaystyle {\ hat {\ beta}} = \ operatorname {argmin} _ {b \ in \ mathbb {R} ^ {p}} S (b) = (X ^ {\ mathrm {T}} X) ^ {-1} X ^ {\ mathrm {T}} y \.}

این محصول N = X است ماتریس نرمال و معکوس آن، Q = -1 ، است ماتریس کوفاکتور از β ، [4] [5] [6] نزدیک به آن مربوط ماتریس کواریانس ، β . ماتریس ( X ) –1 T = T را شبه معكوس مور-پنروز می نامندماتریس X. این فرمول این نکته را برجسته می کند که برآورد می تواند انجام شود اگر ، و فقط در صورت وجود چندخطی بودن کامل بین متغیرهای توضیحی (که باعث می شود ماتریس نرمال معکوس نداشته باشد) وجود نداشته باشد.

بعد از اینکه β را تخمین زدیم ، مقادیر مناسب (یا مقادیر پیش بینی شده ) حاصل از رگرسیون خواهد بود{\ hat {y}} = X {\ hat {\ beta}} = Py ،

که در آن P = X ( X ) -1 T است ماتریس طرح ریزی بر روی فضایی V میرسد توسط ستون ها از X . این ماتریس P را گاهی ماتریس کلاه نیز می نامند زیرا "کلاه را روی متغیر y قرار می دهد" . ماتریس دیگری که از نزدیک با P مرتبط است ، ماتریس نابود کننده M = I n - P است . این یک ماتریس طرح ریزی بر روی فضای متعامد V است . هر دو ماتریس Pو M می متقارن و idempotent (به این معنی که 2 = P و 2 = M )، و مربوط به داده های ماتریس X طریق هویت PX = X و MX = 0 . [7] ماتریس باقیمانده های حاصل از رگرسیون را ایجاد می کند :

{\ displaystyle {\ hat {\ varepsilon}} = y - {\ hat {y}} = yX {\ hat {\ beta}} = My = M (X \ beta + \ varepsilon) = (MX) \ beta + M \ varepsilon = M \ varepsilon.}

با استفاده از این باقیمانده ها می توانیم مقدار σ 2 را با استفاده از آمار كای مربع كاهش یافته تخمین بزنیم :

{\ displaystyle s ^ {2} = {\ frac {{\ hat {\ varepsilon}} ^ {\ mathrm {T}} {\ hat {\ varepsilon}}} {np}} = {\ frac {(من) ^ {\ mathrm {T}} My} {np}} = {\ frac {y ^ {\ mathrm {T}} M ^ {\ mathrm {T}} My} {np}} = {\ frac {y ^ {\ mathrm {T}} My} {np}} = {\ frac {S ({\ hat {\ beta}})} {np}} ، \ qquad {\ hat {\ sigma}} ^ {2} = {\ frac {np} {n}} \؛ s ^ {2}}

عدد ، n - p ، درجه های آماری آزادی است . اولین مقدار ، 2 ، تخمین OLS برای σ 2 است ، در حالی که دومین ،

\ scriptstyle {\ hat {\ sigma}} ^ {2}، برآورد MLE برای σ 2 است . این دو برآوردگر در نمونه های بزرگ کاملاً شبیه به هم هستند. برآوردگر اول همیشه بی طرف است ، در حالی که برآوردگر دوم مغرضانه است اما میانگین مربعات خطای کوچکتر دارد . در عمل از 2 بیشتر استفاده می شود ، زیرا برای آزمایش فرضیه راحت تر است. ریشه مربع 2 را خطای استاندارد رگرسیون ، [8] خطای استاندارد رگرسیون ، [9] [10] یا خطای استاندارد معادله می نامند . [7]

معمولاً ارزیابی خوب بودن تناسب رگرسیون OLS با مقایسه میزان تغییر اولیه در نمونه با بازگشت به X کاهش می یابد . ضریب تعیین 2 به عنوان یک نسبت "توضیح داد:" واریانس به "کل" واریانس متغیر وابسته تعریف Y ، در موارد که در آن مبلغ رگرسیون از مربع برابر است با مجموع مربعات باقیمانده: [11]

{\ displaystyle R ^ {2} = {\ frac {\ sum ({\ hat {y}} _ {i} - {\ overline {y}}) ^ {2}} {\ sum (y_ {i} -) {\ overline {y}}) ^ {2}}} = {\ frac {y ^ {\ mathrm {T}} P ^ {\ mathrm {T}} LPy} {y ^ {\ mathrm {T}} Ly }} = 1 - {\ frac {y ^ {\ mathrm {T}} My} {y ^ {\ mathrm {T}} Ly}} = 1 - {\ frac {\ rm {RSS}} {\ rm { TSS}}}}

که در آن TSS است مجموع مربع برای متغیر وابسته، L = من ازت - 11 T /  N و 1 یک IS N × 1 بردار از آنهایی. ( L یک "ماتریس مرکز" است که معادل رگرسیون روی یک ثابت است ؛ این به سادگی میانگین را از یک متغیر کم می کند.) برای اینکه 2 معنی دار باشد ، ماتریس X داده ها در رگرسورها باید شامل یک بردار ستون باشد برای نشان دادن ثابت که ضریب آن رهگیری رگرسیون است. در آن صورت 2 همیشه عددی بین 0 تا 1 خواهد بود ، مقادیر نزدیک به 1 نشانگر درجه مناسب بودن است.

واریانس پیش بینی متغیر مستقل به عنوان تابعی از متغیر وابسته در مقاله حداقل مربعات چند جمله ای آورده شده است .

منبع

https://en.wikipedia.org/wiki/Ordinary_least_squares