ضریب همبستگی کندال

در آمار ، ضریب همبستگی کندال درجه ، که معمولاً به عنوان ضریب τ کندال (که پس از نامه یونانی τ ، تاو) از آن یاد می شود ، آماری است که برای اندازه گیری ارتباط نظم بین دو مقدار اندازه گیری استفاده می شود. آزمون τ است غیر پارامتری آزمون فرضیه وابستگی آماری بر اساس ضریب τ است.

این یک اندازه گیری از همبستگی درجه است : شباهت به ترتیب داده ها وقتی که توسط هر یک از کمیت ها رتبه بندی می شود. این نام را پس از موریس کندال ، که آن را در سال 1938 توسعه داده است ، نام برد ، [1] اگرچه گوستاو فکنر نیز در زمینه سریال های زمانی در سال 1897 اقدام مشابهی را پیشنهاد کرده بود. [2]

به طور شهودی ، همبستگی کندل بین دو متغیر زیاد خواهد بود وقتی که مشاهدات دارای یک رتبه مشابه (یا یکسان برای همبستگی 1) درجه باشند (یعنی برچسب موقعیت نسبی مشاهدات درون متغیر: 1 ، 2 ، 3 و غیره) بین این دو متغیرها ، و کم در زمانی که مشاهدات دارای یک اختلاف (یا کاملاً متفاوت برای همبستگی −1) بین این دو متغیر هستند.

کندال هر دو $\ تاو$ و $.رو$ می توان به عنوان موارد خاص ضریب همبستگی عمومی تر فرموله شد .

فهرست

تعریف [ ویرایش ]

بگذارید ( x 1 ، y 1 ) ، ( x 2 ، y 2 ) ، ... ، ( x n ، y n ) مجموعه ای از مشاهدات متغیرهای تصادفی مشترک X و Y به ترتیب باشد ، به گونه ای که تمام مقادیر ( $x_ {من$ ) و ( $y_ {من}$ ) بی نظیر هستند. هر جفت از مشاهدات ${\ displaystyle (x_ {i} ، y_ {i})}$ و ${\ displaystyle (x_ {j} ، y_ {j})}$ ، جایی که $من <ج$ ، گفته می شود هماهنگ اگر صفوف برای هر دو عناصر (دقیق تر، نظم مرتب سازی بر اساس X و Y ) موافق: این است که، اگر هر د $\ displaystyle x_ {i}> x_ {j}$ و $\ displaystyle y_ {i}> y_ {j}$ ؛ یا اگر هر دو $\ displaystyle x_ {i} <x_ {j}$ و ${\ displaystyle y_ {i} <y_ {j}$ . گفته می شود اگر مخالف باشند اختلاف نظر دارند $\ displaystyle x_ {i}> x_ {j}$ و ${\ displaystyle y_ {i} <y_ {j}$ ؛ یا اگر $\ displaystyle x_ {i} <x_ {j}$ و $\ displaystyle y_ {i}> y_ {j}$ . اگر $x_ {i} = x_ {j$ یا $\ displaystyle y_ {i} = y_ {j}$ ، این جفت ارز نه سازگار است و نه متناقض.

ضریب کندل τ به شرح زیر است:

${\ displaystyle \ tau = {\ frac {({\ text {تعداد جفت های سازگار}}) - ({\ text {تعداد جفت های متناقض}})} \ n \ انتخاب کنید 2}}.}$ [3]

$\ displaystyle {n \ 2 را انتخاب کنید} = {n (n-1) \ بیش از 2}}$ است ضریب دو جمله ای برای تعدادی از راه های به انتخاب دو آیتم از آیتم N.

خواص [ ویرایش ]

مخرج تعداد کل ترکیب جفت است، بنابراین ضریب باید در محدوده شود -1 ≤ تغییری ≤ 1.

اگر توافق بین دو رتبه کامل باشد (یعنی ، دو رتبه یکسان هستند) ضریب دارای ارزش 1 است.
اگر اختلاف بین این دو رتبه کامل باشد (یعنی یک رتبه معکوس از دیگر است) ضریب دارای ارزش 1 − است.
اگر X و Y هستند مستقل ، پس از آن انتظار داریم که ضریب به حدود صفر باشد.
یک بیان صریح برای ضریب رتبه کندال است $\ displaystyle \ tau = {\ frac {2} {n (n-1)}} \ sum _ {i <j} \ operatorname {sgn} (x_ {i} -x_ {j}) \ operatorname {sgn (y_ {i} -y_ {j})}$ .

آزمون فرضیه [ ویرایش ]

ضریب درجه کندال اغلب به عنوان یک آمار آزمون در آزمون فرضیه آماری مورد استفاده قرار می گیرد تا مشخص شود که آیا دو متغیر ممکن است وابسته به نظر آماری تلقی شوند. این تست غیر پارامتری است ، زیرا به هیچ فرضی بر توزیع X یا Y یا توزیع ( X ، Y ) تکیه نمی کند .

بر اساس فرضیه صفر استقلال X و Y از توزیع نمونه گیری از τ دارای ارزش مورد انتظار از صفر است. توزیع دقیق از نظر توزیع های رایج قابل توصیف نیست ، اما دقیقاً برای نمونه های کوچک محاسبه می شود. برای نمونه های بزرگتر ، استفاده از تقریب توزیع طبیعی با میانگین صفر و واریانس معمول است

${\ frac {2 (2n + 5)} 9n (n-1)}}$ . [4]

حسابداری برای پیوندها [ ویرایش ]

${\ displaystyle \ {(x_ {i} ، y_ {i}) ، (x_ {j} ، y_ {j}) \}}$ گفته می شود اگر گره خورده باشد $x_ {i} = x_ {j$ یا $\ displaystyle y_ {i} = y_ {j}$ ؛ یک جفت گره خورده نه سازگار است و نه متناقض. هنگامی که جفت های گره خورده در داده ها بوجود می آیند ، می توان ضریب را به چند روش تغییر داد تا آن را در محدوده نگه دارید [1 و 1]:

Tau-a [ ویرایش ]

تاو یک آمار آزمون قدرت ارتباط از جدول بندی متقاطع . هر دو متغیر باید نظم باشند . Tau-a هیچ گونه تنظیماتی را برای روابط ایجاد نمی کند. این تعریف به شرح زیر است:

$\ tau _ {A} = {\ frac {n_ {c} -n_ {d}} {n_ {0}}}$

جایی که n c ، n d و n 0 مانند قسمت بعدی تعریف شده است.

Tau-b [ ویرایش ]

آمار Tau-b ، برخلاف Tau-a ، پیوندها را تنظیم می کند. [5] ارزش Tau-b از 1 − (100٪ ارتباط منفی یا وارونگی کامل) تا 1+ (100٪ ارتباط مثبت یا توافق کامل) متغیر است. مقدار صفر نشانگر عدم ارتباط است.

ضریب کندل تاو-ب به شرح زیر است:

$\ tau _ {B} = {\ frac {n_ {c} -n_ {d}} {\ sqrt {(n_ {0} -n_ {1}) (n_ {0} -n_ {2})}}$

جایی که

${\ شروع {تراز شده} n_ {0} & = n (n-1) / 2 \\ n_ {1} & = \ sum _ {i} t_ {i} (t_ {i} -1) / 2 \\ n_ {2} & = \ sum _ {j} u_ {j} (u_ {j} -1) / 2 \\ n_ {c} & = {\ text {تعداد جفت های سازگار}} \\ n_ {d & = {\ text {تعداد جفت های متناقض}} \\ t_ {i} & = {\ text {تعداد مقادیر گره خورده در گروه} ^ i ^ {\ text {th}} {\ text {گروه پیوندها برای مقدار اول}} \\ u_ {j} & = {\ text {تعداد مقادیر گره خورده در}} j ^ {\ text {th}} {\ text {گروه اتصالات برای مقدار دوم {} \ end {تراز شده }$

توجه داشته باشید که برخی از بسته های آماری ، به عنوان مثال SPSS ، از فرمول های جایگزین برای بهره وری محاسباتی استفاده می کنند ، و دو برابر "معمول" از جفت های سازگار و ناسازگار است. [6]

Tau-c [ ویرایش ]

Tau-c (که به آن Stuart-Kendall Tau-c نیز گفته می شود) [7] برای تجزیه و تحلیل داده ها بر اساس جداول احتمالی غیر مربعی (یعنی مستطیلی) مناسب تر از Tau-b است . [7] [8] بنابراین از Tau-b استفاده کنید اگر مقیاس اصلی هر دو متغیر دارای تعداد یکسانی از مقادیر ممکن (قبل از رتبه بندی) و Tau-c در صورت تفاوت باشند. به عنوان مثال ، یک متغیر می تواند در مقیاس 5 امتیاز (بسیار خوب ، خوب ، متوسط ، بد ، بسیار بد) به ثمر برسد ، در حالی که دیگری ممکن است براساس مقیاس دقیق تر 10 امتیاز باشد.

ضریب کندال تاو c به شرح زیر است: [8]

$\ displaystyle \ tau _ {C} = {\ frac {2 (n_ {c} -n_ {d})} {n ^ {2} {\ frac {(m-1)} {m}}}}$

جایی که

${\ displaystyle {\ شروع {تراز شده} n_ {c} & = {\ text {تعداد جفت های سازگار}} \\ n_ {d} & = {\ text {تعداد جفت های ناسازگار}} \\ r & = {\ متن تعداد ردیف}} \\ c & = {\ متن {تعداد ستون} \\ m & = \ min (r، c) \ end {تراز وسط}}$

آزمون های اهمیت [ ویرایش ]

هنگامی که دو مقدار از نظر آماری مستقل هستند ، توزیع $\ تاو$ از نظر توزیع های شناخته شده به راحتی قابل توصیف نیست. با این حال ، برای $\ tau _ {A$ آمار زیر ، $z_ {A$ ، تقریباً به عنوان یک استاندارد عادی توزیع می شود وقتی متغیرها از نظر آماری مستقل هستند:

$z_ {A} = {3 (n_ {c} -n_ {d}) \ over {\ sqrt {n (n-1) (2n + 5) / 2}}}$

بنابراین ، برای بررسی اینکه آیا دو متغیر به لحاظ آماری وابسته هستند ، یکی محاسبه می کند $z_ {A$ ، و احتمال تجمعی برای توزیع عادی استاندارد در را می یابد $- | z_ {A} |$ . برای یک تست 2 دم ، آن عدد را دو برابر کنید تا مقدار p- Value بدست آید . اگر مقدار p زیر یک مقدار از اهمیت معین برخوردار باشد ، فرضیه تهی را رد می کند (در آن سطح اهمیت) مبنی بر اینکه مقادیر آماری مستقل هستند.

تنظیمات بی شماری باید به آن افزوده شود $z_ {A$ هنگام حسابداری برای روابط آمار زیر ، $z_ {B$ توزیع مشابه توزیع دارد $\ tau _ {B$ توزیع ، و دوباره تقریباً برابر با توزیع عادی استاندارد است وقتی مقادیر از نظر آماری مستقل هستند:

$z_ {B} = {n_ {c} -n_ {d} \ over {\ sqrt {v}}}$

جایی که

${\ fill {array} {ccl} v & = & & (v_ {0} -v_ {t} -v_ {u}) / 18 + v_ {1} + v_ {2} \\ v_ {0} & = & n ( n-1) (2n + 5) \\ v_ {t} & = & \ sum _ {i} t_ {i} (t_ {i} -1) (2t_ {i} +5) \\ v_ {u} & = & \ sum _ {j} u_ {j} (u_ {j} -1) (2u_ {j} +5) \\ v_ {1} & = & & sum _ {i} t_ {i} (t_ {i} -1) \ sum _ {j} u_ {j} (u_ {j} -1) / (2n (n-1)) \\ v_ {2} & = & & sum _ {i} t_ i} (t_ {i} -1) (t_ {i} -2) \ sum _ {j} u_ {j} (u_ {j} -1) (u_ {j} -2) / (9n (n- 1) (n-2)) \ end {array}}$

الگوریتم ها [ ویرایش ]

محاسبه مستقیم شمارنده $n_ {c} -n_ {d$ ، شامل دو تکرار تو در تو ، به عنوان با شبه کد زیر مشخص می شود:

numer := 0
for i := 2..N do
    for j := 1..(i − 1) do
        numer := numer + sign(x[i] − x[j]) × sign(y[i] − y[j])
return numer

اگرچه سریع برای اجرای ، این الگوریتم است $O (n ^ {2})$ در پیچیدگی و در نمونه های بزرگ بسیار کند می شود. یک الگوریتم پیچیده تر [9] که بر روی الگوریتم Merge Sort ساخته شده است می تواند برای محاسبه شمارنده در $O (n \ cdot \ log {n})$ زمان.

با مرتب سازی مرتب سازی نقاط داده خود بر اساس مقدار اول ، $ایکس$ ، و ثانیاً (بین پیوندها در $ایکس$ ) به مقدار دوم ، $ی$ . با این سفارش اولیه ، $ی$ طبقه بندی نشده است ، و هسته الگوریتم شامل محاسبه چند مرحله برای مرتب سازی این حباب می باشد $ی$ . الگوریتم پیشرفته ادغام مرتب سازی ، با $O (n \ log n)$ پیچیدگی ، برای محاسبه تعداد مبادله ها ، $S (y)$ ، این نیاز به مرتب سازی حباب دارد $y_ {من}$ . سپس شمارنده برای $\ تاو$ محاسبه می شود:

$n_ {c} -n_ {d} = n_ {0} -n_ {1} -n_ {2} + n_ {3} -2S (y) ،$

جایی که $n_ {3$ مانند محاسبه می شود $n_ {1$ و $n_ {2$ اما با توجه به روابط مشترک در $ایکس$ و $ی$ .

دسته ادغام داده ها را برای مرتب سازی پارتیشن می دهد ، $ی$ به دو نیمه تقریباً برابر ، $y _ {\ ریاضی {سمت چپ}}$ و $y _ {\ ریاضی {درست}}$ ، سپس هر نیم بازگشتی را مرتب کنید ، و سپس دو نیمه مرتب شده را در یک بردار کاملاً مرتب شده ادغام کنید. تعداد مبادلات Bubble Sort برابر است با:

$S (y) = S (y _ {\ mathrm {سمت چپ}}) + S (y _ {\ mathrm {راست}}) + M (Y _ {\ mathrm {سمت چپ} ، Y _ {\ mathrm {راست}})$

جایی که $Y _ {\ ریاضی {سمت چپ}}$ و $Y _ {\ ریاضی {درست}}$ نسخه های مرتب شده اند $y _ {\ ریاضی {سمت چپ}}$ و $y _ {\ ریاضی {درست}}$ و $M (\ cdot ، \ cdot)$ مشخصه مبادله حباب معادل آن برای یک عملیات ادغام. $M (\ cdot ، \ cdot)$ همانطور که در شبه کد زیر نشان داده شده است محاسبه می شود:

function M(L[1..n], R[1..m]) is
    i := 1
    j := 1
    nSwaps := 0
    while i ≤ n and j ≤ m do
        if R[j] < L[i] then
            nSwaps := nSwaps + n − i + 1
            j := j + 1
        else
            i := i + 1
    return nSwaps

یک اثر جانبی از مراحل فوق این است که شما به نسخه های مرتب شده هر دو پایان می دهید $ایکس$ و یک نسخه مرتب شده از $ی$ . با اینها ، عوامل $t_ {من$ و $u_ {j$ برای محاسبه استفاده می شود $\ tau _ {B$ به راحتی در یک گذر زمان خطی تک از آرایه های مرتب شده بدست می آیند.

پیاده سازی نرم افزار [ ویرایش ]

بسته پایگاه داده آماری R آزمون را cor.test(x, y, method = "kendall")در بسته "stats" خود اجرا می کند (همچنین cor(x, y, method = "kendall")کار خواهد کرد ، اما بدون بازگرداندن مقدار p).
برای پایتون ، کتابخانه SciPy محاسبه محاسبات را انجام می دهد $\ تاو$ که در scipy.stats.kendalltau

منبع

https://en.wikipedia.org/wiki/Kendall_rank_correlation_coefficient

+ نوشته شده در چهارشنبه بیستم فروردین ۱۳۹۹ ساعت 22:59 توسط علی رضا نقش نیلچی |

ریاضیات

آموزش ریاضی