در آمار هتلینگ T -squared توزیع ( 2 ) متناسب توزیع چند متغیره به است F -distribution و ناشی مهمتر به عنوان توزیع از مجموعه ای از آمار که تعمیم طبیعی از آمار های اساسی آن دانشجو تی -distribution . هتلینگ تی آمار -squared ( تی 2 ) یک کلیت است دانشجو تی -statistic است که در استفاده چند متغیره آزمون فرض . [1]

 

فهرست

توزیع ویرایش ]

انگیزه ویرایش ]

توزیع در آمار چند متغیره در انجام آزمایش تفاوت بین میانگین (چند متغیره) جمعیت های مختلف بوجود می آید ، جایی که آزمایش برای مشکلات تک متغیره از آزمون t استفاده می کند . این توزیع برای هارولد هاتلینگ نامگذاری شده است ، که آن را به عنوان کلیت توزیع t دانشجو توسعه داد. [1]

تعریف ویرایش ]

اگر بردار ص د 1 است گاوسی چند متغیره توزیع با میانگین صفر و واحد کوواریانس ماتریس N ( ص 0 1 ، ص من ص ) و ص M P است pxp ماتریس با واحد مقیاس ماتریس و متر درجه آزادی با ویشارت توزیع W ( p I p ، m ) ، سپس فرم درجه دوم m ( 1 d T p -1p d 1 ) دارای توزیع Hotelling T 2 ( p ، m ) با پارامتر ابعادی p و m درجه آزادی است. [2]

اگر یک متغیر تصادفی X دارای توزیع T- مربع Hotelling باشد ،{\ displaystyle X \ sim T_ {p، m} ^ {2}}، سپس: [1]


\ frac {m-p + 1} {pm} X \ sim F_ {p، m-p + 1}

جایی که F_ {p ، m-p + 1}است F -distribution با پارامترهای ص و M-P + 1 .

آمار ویرایش ]

تعریف این آمار نمونه چند متغیره پس از ایجاد انگیزه با استفاده از یک مسئله ساده دنبال می شود.

انگیزه ویرایش ]

اطلاعات بیشتر: توزیع نرمال چند متغیره § فاصله

اجازه دهید\ mathcal {N} _p (\ boldsymbol {\ mu} ، {\ mathbf \ Sigma})معنی ص توزیع نرمال -variate با محل {\ boldsymbol {\ mu}}و کوواریانس شناخته شده {\ mathbf \ Sigma}. اجازه دهید

{\ mathbf x} _1 ، \ dots ، {\ mathbf x} _n \ sim \ mathcal {N} _p (\ boldsymbol {\ mu} ، {\ mathbf \ Sigma})

شود N مستقل یکسان توزیع شده (IID) متغیرهای تصادفی ، که ممکن است به عنوان نمایندگیp \ times1بردارهای ستون اعداد واقعی. تعریف کردن

\ overline {\ mathbf x} = \ frac {\ mathbf {x} _1 + \ cdots + \ mathbf {x} _n} {n}

برای نمونه بودن میانگین با کوواریانس{\ displaystyle {\ mathbf {\ Sigma}} _ {\ bar {\ mathbf {x}}} = {\ mathbf {\ Sigma}} / n}. می توان نشان داد که

{\ displaystyle ({\ bar {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) '{\ mathbf {\ Sigma}} _ {\ bar {\ mathbf {x}}} ^ {- 1 } ({\ bar {\ mathbf {x}}} - {\ boldsymbol {\ mathbf {\ mu}}}) \ sim \ chi _ {p} ^ {2}،}

جایی که \ چی ^ 2_ صاست توزیع کیدو با ص درجه آزادی است.

اثبات  -

برای نشان دادن این استفاده از این واقعیت است که {\ displaystyle {\ overline {\ mathbf {x}}} \ sim {\ mathcal {N}} _ {p} ({\ boldsymbol {\ mu}} ، {\ mathbf {\ Sigma}} _ {\ bar { \ mathbf {x}}}}} استخراج تابع مشخصه متغیر تصادفی{\ displaystyle \ mathbf {y} = n ({\ bar {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) '{\ mathbf {\ Sigma}} ^ {- 1} ({\ bar {\ mathbf {x}}} - {\ boldsymbol {\ mathbf {\ mu}}})}. این کار در زیر انجام می شود:

 

{\ displaystyle {\ start {تراز شده} & = | (\ mathbf {I} _ {p} -2i \ theta \ mathbf {I} _ {p}) | ^ {- 1/2} ، \\ [5pt] & = (1-2i \ theta) ^ {- p / 2}. & \ blacksquare \ end {تراز شده}}}

تعریف ویرایش ]

همچنین نگاه کنید به: منطقه اطمینان

ماتریس کوواریانس {\ mathbf \ Sigma}استفاده شده در بالا اغلب ناشناخته است. در اینجا ما به جای نمونه کوواریانس استفاده می کنیم :

{\ displaystyle {\ hat {\ mathbf {\ Sigma}}} = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ {n} (\ mathbf {x} _ {i} - {\ overline {\ mathbf {x}}}) (\ mathbf {x} _ {i} - {\ overline {\ mathbf {x}}}) '}

جایی که ما انتقال را با یک رسول نشان می دهیم . می توان نشان داد که{\ displaystyle {\ hat {\ mathbf {\ Sigma}}}}یک ماتریس قطعی مثبت (نیمه) است و{\ displaystyle (n-1) {\ hat {\ mathbf {\ Sigma}}}}از توزیع p -variant Wishart با n -1 درجه آزادی پیروی می کند. [3] نمونه ماتریس کوواریانس میانگین خوانده می شود{\ displaystyle {\ hat {\ mathbf {\ Sigma}}} _ {\ overline {\ mathbf {x}}} = {\ hat {\ mathbf {\ Sigma}}} / n}.

هتلینگ تی آمار -squared سپس به عنوان تعریف می شود: [4]

{\ displaystyle t ^ {2} = ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mu}}) '{\ hat {\ mathbf {\ Sigma}}} _ {\ overline {\ mathbf {x}}} ^ {- 1} ({\ overline {\ mathbf {x}}} - {\ boldsymbol {\ mathbf {\ mu}}})}

همچنین ، از توزیع ،

{\ displaystyle t ^ {2} \ sim T_ {p، n-1} ^ {2} = {\ frac {p (n-1)} {np}} F_ {p، np}،}

جایی کهF_ {p ، np}است F -distribution با پارامترهای ص و N  -  ص . به منظور محاسبه ص -value (غیر مرتبط ص متغیر در اینجا)، توجه داشته باشید که توزیعt ^ {2} به طور برابر به این معنی است که

{\ displaystyle {\ frac {np} {p (n-1)}} t ^ {2} \ sim F_ {p، np}.}

سپس ، از مقدار موجود در سمت چپ برای ارزیابی مقدار p- مربوط به نمونه ، که از توزیع F حاصل می شود ، استفاده کنید.

آمار دو نمونه ویرایش ]

اگر{\ mathbf x} _1 ، \ dots ، {\ mathbf x} _ {n_x} \ sim N_p (\ boldsymbol {\ mu}، {\ mathbf V})و{\ mathbf y} _1 ، \ dots ، {\ mathbf y} _ {n_y} \ sim N_p (\ boldsymbol {\ mu}، {\ mathbf V})، با نمونه های مستقل از دو توزیع نرمال چند متغیره مستقل با همان میانگین و کوواریانس ، و ما تعریف می کنیم

\ overline {\ mathbf x} = \ frac {1} {n_x} \ sum_ {i = 1} ^ {n_x} \ mathbf {x} _i \ qquad \ overline {\ mathbf y} = \ frac {1} {n_y } \ sum_ {i = 1} ^ {n_y} \ mathbf {y} _i

همانطور که نمونه معنی می کند ، و

{\ displaystyle {\ hat {\ mathbf {\ Sigma}}} _ {\ mathbf {x}} = {\ frac {1} {n_ {x} -1}} \ sum _ {i = 1} ^ {n_ {x}} (\ mathbf {x} _ {i} - {\ overline {\ mathbf {x}}}) (\ mathbf {x} _ {i} - {\ overline {\ mathbf {x}}}) '}

{\ displaystyle {\ hat {\ mathbf {\ Sigma}}} _ {\ mathbf {y}} = {\ frac {1} {n_ {y} -1}} \ sum _ {i = 1} ^ {n_ {y}} (\ mathbf {y} _ {i} - {\ overline {\ mathbf {y}}}) (\ mathbf {y} _ {i} - {\ overline {\ mathbf {y}}}) '}

به عنوان ماتریس کوواریانس نمونه مربوطه. سپس

{\ displaystyle {\ hat {\ mathbf {\ Sigma}}} = {\ frac {(n_ {x} -1) {\ hat {\ mathbf {\ Sigma}}} _ {\ mathbf {x}} + ( n_ {y} -1) {\ hat {\ mathbf {\ Sigma}}} _ {\ mathbf {y}}} {n_ {x} + n_ {y} -2}}}

برآورد ماتریس کوواریانس تلفیق بی طرفانه است (گسترش واریانس تلفیقی ).

سرانجام ، آمار دو نمونه Hotellelling t- مربع است

{\ displaystyle t ^ {2} = {\ frac {n_ {x} n_ {y}} {n_ {x} + n_ {y}}} ({\ overline {\ mathbf {x}}} - {\ overline {\ mathbf {y}}}) '{\ hat {\ mathbf {\ Sigma}}} ^ {- 1} ({\ overline {\ mathbf {x}}} - {\ overline {\ mathbf {y}} }) \ sim T ^ {2} (p، n_ {x} + n_ {y} -2)}

مفاهیم مرتبط ویرایش ]

با [3] می تواند مربوط به توزیع F باشد.

\ frac {n_x + n_y-p-1} {(n_x + n_y-2) p} t ^ 2 \ sim F (p، n_x + n_y-1-p).

توزیع غیر پوچ این آمار توزیع F غیر متمرکز است (نسبت یک متغیر تصادفی مربع مجذور غیر مرکزی و یک متغیر تصادفی مربع خی مستقل)

\ frac {n_x + n_y-p-1} {(n_x + n_y-2) p} t ^ 2 \ sim F (p، n_x + n_y-1-p؛ \ delta) ،

با

\ delta = \ frac {n_x n_y} {n_x + n_y} \ boldsymbol {\ nu} '\ mathbf {V} ^ {- 1} \ boldsymbol {\ nu} ،

که {\ displaystyle {\ boldsymbol {\ nu}} = \ mathbf {{\ overline {x}} - {\ overline {y}}}} بردار تفاوت بین میانگین جمعیت است.

در حالت دو متغیر ، فرمول به راحتی اجازه می دهد تا از چگونگی همبستگی قدردانی کند ، \ rho ، بین متغیرها تأثیر می گذارد t ^ {2}. اگر تعریف کنیم

{\ displaystyle d_ {1} = {\ overline {x}} _ {1} - {\ overline {y}} _ {1} ، \ qquad d_ {2} = {\ overline {x}} _ {2} - {\ overline {y}} _ {2}}

و

{\ displaystyle s_ {1} = {\ sqrt {W_ {11}}} \ qquad s_ {2} = {\ sqrt {W_ {22}}} \ qquad \ rho = W_ {12} / (s_ {1} s_ {2}) = W_ {21} / (s_ {1} s_ {2})}

سپس

{\ displaystyle t ^ {2} = {\ frac {n_ {x} n_ {y}} {(n_ {x} + n_ {y}) (1-r ^ {2})}} \ چپ [\ چپ ({\ frac {d_ {1}} {s_ {1}}} \ راست) ^ {2} + \ چپ ({\ frac {d_ {2}} {s_ {2}}} \ راست) ^ {2 } -2 \ rho \ چپ ({\ frac {d_ {1}} {s_ {1}}} \ راست) \ چپ ({\ frac {d_ {2}} {s_ {2}}} \ راست) \ درست]}

بنابراین ، اگر تفاوت در دو ردیف بردار (\ overline {{\ mathbf x}} - \ overline {{\ mathbf y}}) به طور کلی از یک علامت هستند ، t ^ {2} کوچکتر می شود به عنوان\ rho مثبت تر می شود اگر تفاوت ها از یک علامت مخالف باشدt ^ {2} بزرگتر می شود به عنوان \ rho  مثبت تر می شود

یک مورد خاص تک متغیره را می توان در آزمون t Welch یافت .

منبع

 

آزمونهای قوی و قدرتمندتری نسبت به آزمون دو نمونه هاتلینگ در ادبیات ارائه شده است ، به عنوان مثال آزمونهای مبتنی بر فاصله بین نقطه ای را مشاهده کنید که همچنین هنگامی که تعداد متغیرها با تعداد افراد قابل مقایسه یا حتی بیشتر از آنها است ، قابل استفاده است. [5] [6]

همچنین به ویرایش ] مراجعه کنید

منبع

https://en.wikipedia.org/wiki/Hotelling%27s_T-squared_distribution