مدل رگرسیون خطی ساده ویرایش ]

مقاله اصلی: رگرسیون خطی ساده

اگر ماتریس داده X فقط شامل دو متغیر باشد ، یک رگرسور ثابت و یک مقیاس x i ، آن را "مدل رگرسیون ساده" می نامند. [12] این مورد اغلب در کلاسهای آمار مبتدی مورد توجه قرار می گیرد ، زیرا فرمول های بسیار ساده تری حتی برای محاسبه دستی نیز مناسب است. پارامترها معمولاً به صورت α ، β ) نشان داده می شوند :

y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.

حداقل برآورد مربعات در این مورد با فرمول های ساده داده می شود

{\ displaystyle {\ start {تراز شده} {\ کلاه {\ بتا}} & = {\ frac {\ sum {x_ {i} y_ {i}} - {\ frac {1} {n}} \ sum {x_ {i}} \ sum {y_ {i}}} {\ sum {x_ {i} ^ {2}} - {\ frac {1} {n}} (\ sum {x_ {i}}) ^ {2 }}} = {\ frac {\ operatorname {Cov} [x، y]} {\ operatorname {Var} [x]}} \\ {\ hat {\ alpha}} & = {\ overline {y}} - {\ hat {\ beta}} \، {\ overline {x}} \، \ end {تراز شده}}}

که در آن Var (.) و Cov (.) پارامترهای نمونه هستند.

مشتقات جایگزین ویرایش ]

در بخش قبلی برآورد حداقل مربعات {\ کلاه {\ بتا}}به عنوان مقداری بدست آمد که مجموع باقیمانده های مربع مدل را به حداقل می رساند. با این وجود استخراج برآوردگر یکسان از رویکردهای دیگر نیز امکان پذیر است. در همه موارد فرمول برآوردگر OLS به همان صورت باقی می ماند: ^ β = ( X T X ) −1 X T y ؛ تنها تفاوت در نحوه تفسیر این نتیجه است.

فرافکنی ویرایش ]

تخمین OLS را می توان به عنوان یک پیش بینی بر روی فضای خطی که توسط رگرسورها کنترل می شود ، مشاهده کرد. (در اینجا هر یک ازX_ {1} و X_ {2} به ستونی از ماتریس داده اشاره دارد.)

ممکن است لازم باشد این قسمت تمیز شود. از حداقل مربعات خطی (ریاضیات) ادغام شده است .

برای ریاضی دانان، OLS یک راه حل تقریبی به یک سیستم تغیین از معادلات است  ≈ Y ، که در آن β ناشناخته است. با فرض اینکه سیستم دقیقاً قابل حل نباشد (تعداد معادلات n بسیار بیشتر از تعداد ناشناخته های p است ) ، ما به دنبال راه حلی هستیم که بتواند کمترین اختلاف بین دو طرف راست و چپ را فراهم کند. به عبارت دیگر ، ما به دنبال راه حل رضایت بخش هستیم

{\ hat {\ beta}} = {\ rm {arg}} \ min _ {\ beta} \، \ lVert yX \ beta \ rVert،

کجا || · ||  هنجار استاندارد 2 در فضای اقلیدسی n- بعدی n است . مقدار پیش بینی شده  فقط یک ترکیب خطی خاص از بردارهای بازدارنده است. بنابراین ، بردار باقیمانده y -  کمترین طول را خواهد داشت وقتی y به صورت متعامد بر روی فضای فضای خطی قرار دارد که توسط ستون های پوشانده شده است . برآوردگر {\ کلاه {\ بتا}}در این مورد می تواند به عنوان ضرایب تفسیر تجزیه بردار از Y = کوکنار در امتداد اساس X .

به عبارت دیگر ، حداقل معادلات شیب را می توان به صورت زیر نوشت:

(\ mathbf {y} -X {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} X = 0.

یک تفسیر هندسی از این معادلات این است که بردار باقیمانده ها ، \ mathbf {y} -X {\ hat {\ boldsymbol {\ beta}}}متعامد به است فضای ستون از X ، از محصول از نقطه(\ mathbf {y} -X {\ hat {\ boldsymbol {\ beta}}}) \ cdot X \ mathbf {v} برابر است با صفر برای هر بردار انطباق ، v . این بدان معنی است که\ mathbf {y} -X {\ boldsymbol {\ hat {\ beta}}} کوتاهترین بردارهای ممکن است\ mathbf {y} -X {\ boldsymbol {\ beta}}، یعنی واریانس باقیمانده حداقل ممکن است. این در سمت راست نشان داده شده است.

معرفی{\ hat {\ boldsymbol {\ gamma}}}و یک ماتریس K با این فرض که یک ماتریس[X \ K]غیر مفرد است و X = 0 ( رجوع کنید به پیش بینی های متعامد ) ، بردار باقی مانده باید معادله زیر را برآورده کند:

{\ hat {\ mathbf {r}}} \ triangleq \ mathbf {y} -X {\ hat {\ boldsymbol {\ beta}}} = K {\ hat {\ boldsymbol {\ gamma}}}.

بنابراین معادله و حل حداقل مربعات خطی به شرح زیر شرح داده شده است:

\ mathbf {y} = {\ start {bmatrix} X&K \ end {bmatrix}} {\ begin {pmatrix} {\ hat {\ boldsymbol {\ beta}}} \\ {\ hat {\ boldsymbol {\ gamma}} } \ end {pmatrix}} ،

{\ start {pmatrix} {\ hat {\ boldsymbol {\ beta}}} \\ {\ hat {\ boldsymbol {\ gamma}}} \ end {pmatrix}} = {\ start {bmatrix} X&K \ end {bmatrix }} ^ {- 1} \ mathbf {y} = {\ start {bmatrix} (X ^ {\ rm {T}} X) ^ {- 1} X ^ {\ rm {T}} \\ (K ^ {\ rm {T}} K) ^ {- 1} K ^ {\ rm {T}} \ end {bmatrix}} \ mathbf {y}.

روش دیگر بررسی این است که خط رگرسیون را میانگین وزنی خطوط عبوری از ترکیب هر دو نقطه در مجموعه داده در نظر بگیریم. [13] اگرچه این روش محاسبه گران از نظر محاسباتی گران است ، اما شهود بهتری در OLS فراهم می کند.

حداکثر احتمال ویرایش ]

برآوردگر OLS با فرض نرمال بودن اصطلاحات خطا با برآوردگر حداکثر احتمال (MLE) یکسان است . [14] [اثبات] این فرض عادی از اهمیت تاریخی برخوردار است ، زیرا اساس کار اولیه در تحلیل رگرسیون خطی توسط یول و پیرسون را فراهم کرد. [ نیاز به منبع ] از خواص MLE ، می توان نتیجه گرفت که برآوردگر OLS به صورت مجانبی کارآمد است (به معنای دستیابی به کرامر-رائو که برای واریانس محدود است ) اگر فرض نرمال بودن را برآورده کند. [15]

روش تعمیم یافته لحظه ها ویرایش ]

در IID مورد ارزیاب OLS همچنین می توانید به عنوان یک مشاهده می شود GMM برآوردگر ناشی از شرایط حال حاضر

\ mathrm {E} {\ big [} \، x_ {i} (y_ {i} -x_ {i} ^ {T} \ beta) \، {\ big]} = 0.

این شرایط لحظه ای بیان می کند که رگرسورها نباید با خطاها ارتباطی نداشته باشند. از آنجا که x i یک بردار p است ، تعداد شرایط گشتاور برابر است با بعد بردار پارامتر β ، بنابراین سیستم دقیقاً مشخص می شود. این حالت به اصطلاح کلاسیک GMM است ، زمانی که برآوردگر به انتخاب ماتریس وزن بستگی ندارد.

توجه داشته باشید که فرض اصلی برازش دقیق E [ ε i  | x i ] = 0 مجموعه ای از شرایط لحظه ای به مراتب غنی تر از آنچه در بالا گفته شد را نشان می دهد. به طور خاص ، این فرض به این معنی است که برای هر تابع بردار ƒ ، شرایط لحظه E [ ƒ ( x i ) · ε i ] = 0 برقرار است . با این حال می توان آن را با استفاده از نشان داده شده است قضیه گوس-مارکف که انتخاب بهینه از تابع ƒ است را به ƒ ( x را ) = X ، که منجر به معادله لحظه ارسال شده در بالا.

منبع

https://en.wikipedia.org/wiki/Ordinary_least_squares