ضریب همبستگی کندال
در آمار ، ضریب همبستگی کندال درجه ، که معمولاً به عنوان ضریب τ کندال (که پس از نامه یونانی τ ، تاو) از آن یاد می شود ، آماری است که برای اندازه گیری ارتباط نظم بین دو مقدار اندازه گیری استفاده می شود. آزمون τ است غیر پارامتری آزمون فرضیه وابستگی آماری بر اساس ضریب τ است.
این یک اندازه گیری از همبستگی درجه است : شباهت به ترتیب داده ها وقتی که توسط هر یک از کمیت ها رتبه بندی می شود. این نام را پس از موریس کندال ، که آن را در سال 1938 توسعه داده است ، نام برد ، [1] اگرچه گوستاو فکنر نیز در زمینه سریال های زمانی در سال 1897 اقدام مشابهی را پیشنهاد کرده بود. [2]
به طور شهودی ، همبستگی کندل بین دو متغیر زیاد خواهد بود وقتی که مشاهدات دارای یک رتبه مشابه (یا یکسان برای همبستگی 1) درجه باشند (یعنی برچسب موقعیت نسبی مشاهدات درون متغیر: 1 ، 2 ، 3 و غیره) بین این دو متغیرها ، و کم در زمانی که مشاهدات دارای یک اختلاف (یا کاملاً متفاوت برای همبستگی −1) بین این دو متغیر هستند.
کندال هر دوو
می توان به عنوان موارد خاص ضریب همبستگی عمومی تر فرموله شد .
فهرست
- 1تعریف
- 2آزمون فرضیه
- 3حسابداری برای پیوندها
- 4تست اهمیت
- 5الگوریتم
- 6پیاده سازی نرم افزار
- 7همچنین ببینید
- 8مرجع
- 9مطالعه بیشتر
- 10پیوند خارجی
تعریف [ ویرایش ]
بگذارید ( x 1 ، y 1 ) ، ( x 2 ، y 2 ) ، ... ، ( x n ، y n ) مجموعه ای از مشاهدات متغیرهای تصادفی مشترک X و Y به ترتیب باشد ، به گونه ای که تمام مقادیر () و (
) بی نظیر هستند. هر جفت از مشاهدات
و
، جایی که
، گفته می شود هماهنگ اگر صفوف برای هر دو عناصر (دقیق تر، نظم مرتب سازی بر اساس X و Y ) موافق: این است که، اگر هر د
و
؛ یا اگر هر دو
و
. گفته می شود اگر مخالف باشند اختلاف نظر دارند
و
؛ یا اگر
و
. اگر
یا
، این جفت ارز نه سازگار است و نه متناقض.
ضریب کندل τ به شرح زیر است:
است ضریب دو جمله ای برای تعدادی از راه های به انتخاب دو آیتم از آیتم N.
خواص [ ویرایش ]
مخرج تعداد کل ترکیب جفت است، بنابراین ضریب باید در محدوده شود -1 ≤ تغییری ≤ 1.
- اگر توافق بین دو رتبه کامل باشد (یعنی ، دو رتبه یکسان هستند) ضریب دارای ارزش 1 است.
- اگر اختلاف بین این دو رتبه کامل باشد (یعنی یک رتبه معکوس از دیگر است) ضریب دارای ارزش 1 − است.
- اگر X و Y هستند مستقل ، پس از آن انتظار داریم که ضریب به حدود صفر باشد.
- یک بیان صریح برای ضریب رتبه کندال است
.
آزمون فرضیه [ ویرایش ]
ضریب درجه کندال اغلب به عنوان یک آمار آزمون در آزمون فرضیه آماری مورد استفاده قرار می گیرد تا مشخص شود که آیا دو متغیر ممکن است وابسته به نظر آماری تلقی شوند. این تست غیر پارامتری است ، زیرا به هیچ فرضی بر توزیع X یا Y یا توزیع ( X ، Y ) تکیه نمی کند .
بر اساس فرضیه صفر استقلال X و Y از توزیع نمونه گیری از τ دارای ارزش مورد انتظار از صفر است. توزیع دقیق از نظر توزیع های رایج قابل توصیف نیست ، اما دقیقاً برای نمونه های کوچک محاسبه می شود. برای نمونه های بزرگتر ، استفاده از تقریب توزیع طبیعی با میانگین صفر و واریانس معمول است
. [4]
حسابداری برای پیوندها [ ویرایش ]
گفته می شود اگر گره خورده باشد
یا
؛ یک جفت گره خورده نه سازگار است و نه متناقض. هنگامی که جفت های گره خورده در داده ها بوجود می آیند ، می توان ضریب را به چند روش تغییر داد تا آن را در محدوده نگه دارید [1 و 1]:
Tau-a [ ویرایش ]
تاو یک آمار آزمون قدرت ارتباط از جدول بندی متقاطع . هر دو متغیر باید نظم باشند . Tau-a هیچ گونه تنظیماتی را برای روابط ایجاد نمی کند. این تعریف به شرح زیر است:
جایی که n c ، n d و n 0 مانند قسمت بعدی تعریف شده است.
Tau-b [ ویرایش ]
آمار Tau-b ، برخلاف Tau-a ، پیوندها را تنظیم می کند. [5] ارزش Tau-b از 1 − (100٪ ارتباط منفی یا وارونگی کامل) تا 1+ (100٪ ارتباط مثبت یا توافق کامل) متغیر است. مقدار صفر نشانگر عدم ارتباط است.
ضریب کندل تاو-ب به شرح زیر است:
جایی که
توجه داشته باشید که برخی از بسته های آماری ، به عنوان مثال SPSS ، از فرمول های جایگزین برای بهره وری محاسباتی استفاده می کنند ، و دو برابر "معمول" از جفت های سازگار و ناسازگار است. [6]
Tau-c [ ویرایش ]
Tau-c (که به آن Stuart-Kendall Tau-c نیز گفته می شود) [7] برای تجزیه و تحلیل داده ها بر اساس جداول احتمالی غیر مربعی (یعنی مستطیلی) مناسب تر از Tau-b است . [7] [8] بنابراین از Tau-b استفاده کنید اگر مقیاس اصلی هر دو متغیر دارای تعداد یکسانی از مقادیر ممکن (قبل از رتبه بندی) و Tau-c در صورت تفاوت باشند. به عنوان مثال ، یک متغیر می تواند در مقیاس 5 امتیاز (بسیار خوب ، خوب ، متوسط ، بد ، بسیار بد) به ثمر برسد ، در حالی که دیگری ممکن است براساس مقیاس دقیق تر 10 امتیاز باشد.
ضریب کندال تاو c به شرح زیر است: [8]
جایی که
آزمون های اهمیت [ ویرایش ]
هنگامی که دو مقدار از نظر آماری مستقل هستند ، توزیع از نظر توزیع های شناخته شده به راحتی قابل توصیف نیست. با این حال ، برای
آمار زیر ،
، تقریباً به عنوان یک استاندارد عادی توزیع می شود وقتی متغیرها از نظر آماری مستقل هستند:
بنابراین ، برای بررسی اینکه آیا دو متغیر به لحاظ آماری وابسته هستند ، یکی محاسبه می کند، و احتمال تجمعی برای توزیع عادی استاندارد در را می یابد
. برای یک تست 2 دم ، آن عدد را دو برابر کنید تا مقدار p- Value بدست آید . اگر مقدار p زیر یک مقدار از اهمیت معین برخوردار باشد ، فرضیه تهی را رد می کند (در آن سطح اهمیت) مبنی بر اینکه مقادیر آماری مستقل هستند.
تنظیمات بی شماری باید به آن افزوده شود هنگام حسابداری برای روابط آمار زیر ،
توزیع مشابه توزیع دارد
توزیع ، و دوباره تقریباً برابر با توزیع عادی استاندارد است وقتی مقادیر از نظر آماری مستقل هستند:
جایی که
الگوریتم ها [ ویرایش ]
محاسبه مستقیم شمارنده ، شامل دو تکرار تو در تو ، به عنوان با شبه کد زیر مشخص می شود:
numer := 0 for i := 2..N do for j := 1..(i − 1) do numer := numer + sign(x[i] − x[j]) × sign(y[i] − y[j]) return numer
اگرچه سریع برای اجرای ، این الگوریتم است در پیچیدگی و در نمونه های بزرگ بسیار کند می شود. یک الگوریتم پیچیده تر [9] که بر روی الگوریتم Merge Sort ساخته شده است می تواند برای محاسبه شمارنده در
زمان.
با مرتب سازی مرتب سازی نقاط داده خود بر اساس مقدار اول ، ، و ثانیاً (بین پیوندها در
) به مقدار دوم ،
. با این سفارش اولیه ،
طبقه بندی نشده است ، و هسته الگوریتم شامل محاسبه چند مرحله برای مرتب سازی این حباب می باشد
. الگوریتم پیشرفته ادغام مرتب سازی ، با
پیچیدگی ، برای محاسبه تعداد مبادله ها ،
، این نیاز به مرتب سازی حباب دارد
. سپس شمارنده برای
محاسبه می شود:
جایی که مانند محاسبه می شود
و
اما با توجه به روابط مشترک در
و
.
دسته ادغام داده ها را برای مرتب سازی پارتیشن می دهد ، به دو نیمه تقریباً برابر ،
و
، سپس هر نیم بازگشتی را مرتب کنید ، و سپس دو نیمه مرتب شده را در یک بردار کاملاً مرتب شده ادغام کنید. تعداد مبادلات Bubble Sort برابر است با:
جایی که و
نسخه های مرتب شده اند
و
و
مشخصه مبادله حباب معادل آن برای یک عملیات ادغام.
همانطور که در شبه کد زیر نشان داده شده است محاسبه می شود:
function M(L[1..n], R[1..m]) is i := 1 j := 1 nSwaps := 0 while i ≤ n and j ≤ m do if R[j] < L[i] then nSwaps := nSwaps + n − i + 1 j := j + 1 else i := i + 1 return nSwaps
یک اثر جانبی از مراحل فوق این است که شما به نسخه های مرتب شده هر دو پایان می دهید و یک نسخه مرتب شده از
. با اینها ، عوامل
و
برای محاسبه استفاده می شود
به راحتی در یک گذر زمان خطی تک از آرایه های مرتب شده بدست می آیند.
پیاده سازی نرم افزار [ ویرایش ]
- بسته پایگاه داده آماری R آزمون را cor.test(x, y, method = "kendall")در بسته "stats" خود اجرا می کند (همچنین cor(x, y, method = "kendall")کار خواهد کرد ، اما بدون بازگرداندن مقدار p).
- برای پایتون ، کتابخانه SciPy محاسبه محاسبات را انجام می دهد
که در scipy.stats.kendalltau
منبع
https://en.wikipedia.org/wiki/Kendall_rank_correlation_coefficient