یافتن میانه در مجموعه داده های دارای تعداد فرد و زوج

در نظریه آمار و احتمال ، میانه یک مقدار است که نیمه بالاتر را از نیمه پایین یک نمونه داده ، یک جمعیت یا یک توزیع احتمال جدا می کند . برای یک مجموعه داده ، ممکن است به عنوان مقدار "متوسط" در نظر گرفته شود. به عنوان مثال ، مزیت اساسی میانه در توصیف داده ها در مقایسه با میانگین (که اغلب به سادگی "متوسط" توصیف می شود) عدم انحراف آن استبا اندکی نسبت مقادیر بسیار بزرگ یا کوچک ، و بنابراین ممکن است ایده بهتری از یک مقدار "معمولی" ارائه دهد. به عنوان مثال ، در درک آماری مانند درآمد خانوار یا دارایی ها که بسیار متفاوت هستند ، ممکن است با تعداد کمی از ارزش های بسیار زیاد یا کم ، میانگین بدتر شود. به عنوان مثال درآمد متوسط ممکن است روش بهتری برای پیشنهاد درآمد "معمولی" باشد. به این دلیل، میانه از اهمیت مرکزی در آمار قوی ، آن را به عنوان است آمار مقاوم در برابر ، داشتن یک نقطه ی شکست 50٪: تا زمانی که بیش از نیمی از داده آلوده، میانه نمی خواهد خودسرانه بزرگ را یا نتیجه کوچک.

 

فهرست

مجموعه داده محدود اعداد ویرایش ]

میانه یک لیست محدود از اعداد ، عدد "میانی" است ، وقتی که این اعداد به ترتیب از کوچکترین به بزرگترین لیست می شوند.

اگر تعداد عجیب و غریب اعداد وجود داشته باشد ، شماره میانی انتخاب می شود. به عنوان مثال ، لیست اعداد را در نظر بگیرید

1 ، 3 ، 3 ، 6 ، 7 ، 8 ، 9

این لیست شامل هفت عدد است. میانه چهارمین آنها است که 6 است.

اگر تعداد مشاهدات زوج وجود داشته باشد ، یک مقدار میانی واحد وجود ندارد. سپس میانه معمولاً به عنوان میانگین دو مقدار میانی تعریف می شود. [1] [2] به عنوان مثال ، در مجموعه داده ها

1 ، 2 ، 3 ، 4 ، 5 ، 6 ، 8 ، 9

میانه میانگین دو عدد میانی است: این است {\ displaystyle (4 + 5) / 2}، که هست {\ displaystyle 4.5}. (از لحاظ فنی بیشتر، این تفسیر از متوسط به عنوان به طور کامل کمرنگ اواسط محدوده ). با این قرارداد، از متوسط می توان در یک توصیف caseless فرمول، به شرح زیر:

{\ displaystyle \ mathrm {median} (x) = {\ frac {1} {2}} (x _ {\ lfloor (n + 1) / 2 \ rfloor} + x _ {\ lceil (n + 1) / 2 \ rceil})}

جایی که ایکس یک لیست مرتب از است n اعداد ، و \ lfloor \ cdot \ rfloor  و \ lceil \ cdot \ rceil معنی کف و سقف توابع ، به ترتیب.

مقایسه میانگین های متداول مقادیر [1 ، 2 ، 2 ، 3 ، 4 ، 7 ، 9]
تایپ کنیدشرحمثالنتیجه
میانگین حسابیمجموع مقادیر یک مجموعه داده تقسیم بر تعداد مقادیر: \ scriptstyle {\ bar {x}} = {\ frac {1} {n}} \ sum _ {{i = 1}} ^ {n} x_ {i}(1 + 2 + 2 + 3 + 4 + 7 + 9) / 74
متوسطمقدار میانی که نیمه های بزرگ و کوچکتر از یک مجموعه داده را جدا می کند1 ، 2 ، 2 ، 3 ، 4 ، 7 ، 93
حالتبیشترین مقدار مکرر در یک مجموعه داده1 ، 2 ، 2 ، 3 ، 4 ، 7 ، 92

تعریف رسمی ویرایش ]

به طور رسمی ، یک میانگین از جمعیت هر مقداری است که حداکثر نیمی از جمعیت از میانگین پیشنهادی کمتر باشد و حداکثر نیمی از آن از میانگین پیشنهادی بیشتر باشد. همانطور که در بالا مشاهده شد ، ممکن است مدیان منحصر به فرد نباشد. اگر هر مجموعه کمتر از نیمی از جمعیت را شامل شود ، برخی از جمعیت دقیقاً برابر با میانگین منحصر به فرد است.

میانه برای هر داده مرتب شده (یک بعدی) کاملاً مشخص است و مستقل از هر سنسور فاصله است . بنابراین می توان برای کلاسهایی که دارای ردیف هستند اما عددی نیستند (به عنوان مثال کار با نمره متوسط ​​وقتی دانش آموزان از A به F نمره می گیرند) می توان استفاده کرد ، اگرچه اگر تعداد زوجی وجود داشته باشد نتیجه ممکن است در نیمه راه باشد.

از طرف دیگر ، یک میانگین هندسی در هر ابعادی تعریف می شود. یک مفهوم مرتبط ، که در آن نتیجه مجبور می شود با یکی از اعضای نمونه مطابقت داشته باشد ، فرضیه ای است .

هیچ علامت استاندارد به طور گسترده ای برای میانه پذیرفته نشده است ، اما برخی از نویسندگان میانگین یک متغیر x را به عنوان  یا به عنوان μ 1/2 [1] گاهی اوقات نیز M نشان می دهند . [3] [4] در هر یک از این موارد ، استفاده از این نمادها یا سایر نمادها هنگام معرفی باید به صراحت تعریف شود.

میانه یک مورد خاص از دیگر راه های خلاصه مقادیر متداول در ارتباط با یک توزیع آماری : آن 2 است چارک ، 5 دهک ، و 50 درصد .

استفاده می کند ویرایش ]

میانه می تواند به عنوان یک اندازه گیری از استفاده محل زمانی که یکی متصل به اهمیت ارزش شدید کاهش می یابد، به طور معمول به دلیل یک توزیع نامتوازن ، ارزش شدید در دست نیست، و یا نقاط دورافتاده یعنی غیر قابل اعتماد هستند، ممکن است خطاهای اندازه گیری / رونویسی.

به عنوان مثال، در نظر گرفتن های MultiSet

1 ، 2 ، 2 ، 2 ، 3 ، 14

در این حالت میانه 2 است (همانند حالت ) ، و ممکن است به عنوان نشانه ای بهتر از مرکز در نظر گرفته شود از میانگین حساب 4 ، که بزرگتر از کل مقادیر یک است. با این حال ، رابطه تجربی که به طور گسترده ذکر شده است که میانگین نسبت به میانگین "بیشتر به دم" توزیع منتقل می شود ، به طور کلی درست نیست. حداکثر می توان گفت که این دو آمار نمی توانند "خیلی دور" باشند. مشاهده § نابرابری مربوط به معنی و میانه است. [5]

از آنجا که یک میانگین بر اساس داده های میانی یک مجموعه است ، برای محاسبه آن نیازی به دانستن مقدار نتایج شدید نیست. به عنوان مثال ، در یک آزمایش روانشناسی برای بررسی زمان مورد نیاز برای حل یک مسئله ، اگر تعداد معدودی از افراد در زمان تعیین شده به طور کامل موفق به حل مسئله نشوند ، می توان مدیان را محاسبه کرد. [6]

از آنجا که میانه آن ساده است و محاسبه آن آسان است ، در عین حال یک تقریب قوی با میانگین است ، میانه یک آمار خلاصه محبوب در آمار توصیفی است . در این زمینه ، گزینه های مختلفی برای اندازه گیری تنوع وجود دارد : دامنه ، محدوده بین چهار ذره ای ، میانگین انحراف مطلق و انحراف مطلق متوسط .

برای اهداف عملی ، معیارهای مختلف مکان و پراکندگی اغلب بر اساس چگونگی ارزیابی مقادیر جمعیت مربوطه از یک نمونه داده مقایسه می شود. میانه ، با استفاده از میانه نمونه برآورد می شود ، از این نظر خواص خوبی دارد. اگرچه اگر یک توزیع جمعیت معین فرض شود ، معمولاً مطلوب نیست ، اما خواص آن همیشه منطقی است. به عنوان مثال ، مقایسه کارایی برآوردگرهای نامزد نشان می دهد که میانگین نمونه از نظر آماری کارآمدتر است - و فقط وقتی - داده ها با داده های توزیع دم سنگین یا مخلوط توزیع آلوده نیستند. [ نیاز به منبع ] حتی در آن زمان ، میانگین دارای کارایی 64٪ در مقایسه با میانگین حداقل واریانس (برای نمونه های عادی بزرگ) است ، به عبارتی واریانس میانه 50 ~ بیشتر از واریانس میانگین خواهد بود. [7] [8]

توزیع احتمالات ویرایش ]

تجسم هندسی حالت ، میانه و میانگین یک تابع چگالی احتمال دلخواه [9]

برای هر توزیع احتمال با ارزش واقعی با تابع توزیع تجمعی F ، میانه به عنوان هر عدد واقعی m تعریف می شود  که نابرابری ها را برآورده کند  

{\ displaystyle \ int _ {(- \ infty، m]} dF (x) \ geq {\ frac {1} {2}} {\ text {and}} \ int _ {[m، \ infty]} dF (x) \ geq {\ frac {1} {2}}}.

یک عبارت معادل از یک متغیر تصادفی X با توجه به F استفاده می کند :

{\ displaystyle \ operatorname {P} (X \ leq m) \ geq {\ frac {1} {2}} {\ text {and}} \ operatorname {P} (X \ geq m) \ geq {\ frac { 1} {2}}}

توجه داشته باشید که این تعریف نیازی نیست X به یک توزیع کاملا پیوسته (که دارای چگالی احتمال تابع ƒ )، و نه آن نیاز به یک گسسته . در حالت سابق ، نابرابری ها را می توان به برابری ارتقا داد: یک متوسط ​​برآورده می کند

{\ displaystyle \ operatorname {P} (X \ leq m) = \ int _ {- \ infty} ^ {m} {f (x) \، dx} = {\ frac {1} {2}} = \ int _ {m} ^ {\ infty} {f (x) \، dx} = \ operatorname {P} (X \ geq m)}.

هر توزیع احتمالی روی R حداقل یک میانه دارد ، اما در موارد آسیب شناختی ممکن است بیش از یک مدیان وجود داشته باشد: اگر F در یک بازه 1/2 ثابت باشد (به طوری که در آنجا ƒ = 0) ، پس هر مقدار از آن فاصله یک است متوسط

میانه های توزیع خاص ویرایش ]

میانه انواع خاصی از توزیع را می توان به راحتی از پارامترهای آنها محاسبه کرد. علاوه بر این ، آنها حتی برای برخی از توزیع های فاقد میانگین مشخص ، مانند توزیع کوشی ، وجود دارند :

  • میانه توزیع غیر متقارن متقارن با حالت همزمان است.
  • میانه یک توزیع متقارن که دارای μ متوسط ​​است نیز مقدار μ را می گیرد .
    • میانه توزیع طبیعی با میانگین μ و واریانس σ 2 μ است. در حقیقت ، برای توزیع نرمال ، میانگین = متوسط ​​= حالت.
    • میانه توزیع یکنواخت در فاصله [ a ،  b ] ( a  +  b ) / 2 است ، که همچنین میانگین است.
  • میانگین یک توزیع کوشی با پارامتر مکان 0 و پارامتر مقیاس Y است  0 ، پارامتر مکان.
  • میانه توزیع قانون قدرت a ، با بیان a  > 1 برابر 2 1 / ( a  - 1) دقیقه است ، جایی که min حداقل مقداری است که قانون قدرت برای آن در نظر گرفته است [10]
  • میانه توزیع نمایی با پارامتر نرخ λ ، لگاریتم طبیعی 2 است که بر پارامتر نرخ تقسیم می شود: λ -1 ln 2.
  • میانگین یک توزیع وایبل با پارامتر شکل K و مقیاس پارامتر λ است  λ (LN 2) 1 / K .

جمعیتها ویرایش ]

ویژگی بهینه سازی ویرایش ]

میانگین خطای مطلق یک متغیر واقعی ج با توجه به متغیر تصادفی  X است

E (\ چپ | Xc \ راست |) \ ،

به شرطی که توزیع احتمال X به حدی باشد که انتظار فوق وجود داشته باشد ، پس m یک میانگین X است اگر و فقط اگر m به حداقل رساندن میانگین خطای مطلق نسبت به X باشد. [11] به طور خاص ، m یک میانگین نمونه است اگر و فقط اگر m میانگین محاسبه انحرافات مطلق را به حداقل برساند. [12]

به طور کلی ، میانه به عنوان حداقل تعریف می شود

{\ displaystyle E (| Xc | - | X |) ،}

همانطور که در زیر در بخش میانه های چند متغیره (به طور خاص ، میانه مکانی ) بحث شده است.

این تعریف مبتنی بر بهینه سازی از میانگین در تجزیه و تحلیل داده های آماری ، به عنوان مثال ، در خوشه بندی k -medians مفید است .

نابرابری مربوط به میانگین ها و میانگین ها ویرایش ]

مقایسه میانگین ، میانه و حالت دو توزیع log-normal با انحنای متفاوت

اگر توزیع دارای واریانس محدود باشد ، فاصله بین میانه {\ tilde {X}} و میانگین{\ bar {X}}محدود به یک انحراف استاندارد است .

این محدودیت توسط مالوز ، [13] که دو بار از نابرابری جنسن استفاده کرد ، به شرح زیر ثابت شد. با استفاده از | · | برای مقدار مطلق ، ما داریم

{\ displaystyle {\ start {تراز شده} | \ mu -m | = | \ operatorname {E} (Xm) | & \ leq \ operatorname {E} (| Xm |) \\ & \ leq \ operatorname {E} ( | X- \ mu |) \\ & \ leq {\ sqrt {\ operatorname {E} \ چپ ((X- \ mu) ^ {2} \ راست)}} = \ سیگما. \ پایان {تراز شده}}}

نابرابری های اول و سوم از نابرابری جنسن اعمال شده بر تابع مقدار مطلق و تابع مربع ناشی می شوند که هر یک محدب هستند. نابرابری دوم از این واقعیت ناشی می شود که یک میانه عملکرد انحراف مطلق را به حداقل می رساند{\ displaystyle a \ mapsto \ operatorname {E} (| Xa |)}.

اثبات مالوز را می توان برای بدست آوردن یک نسخه چند متغیره از نابرابری [14] به سادگی با جایگزینی مقدار مطلق با یک هنجار ، تعمیم داد :

{\ displaystyle \ | \ mu -m \ | \ leq {\ sqrt {\ operatorname {E} \ سمت چپ (\ | X- \ mu \ | ^ {2} \ راست)}}} = {\ sqrt {\ operatorname { ردیابی} \ چپ (\ operatorname {var} (X) \ راست)}}}

که در آن m یک فاصله مکانی است ، به این معنی که یک تابع را به حداقل می رساند{\ displaystyle a \ mapsto \ operatorname {E} (\ | Xa \ |). \،}وقتی بعد مجموعه داده ها دو یا بیشتر باشد ، میانه مکانی منحصر به فرد است. [15] [16]

یک اثبات جایگزین از نابرابری یک طرفه چبیشف استفاده می کند. این در نابرابری در مکان و پارامترهای مقیاس ظاهر می شود . این فرمول مستقیماً از نابرابری کانتلی نیز پیروی می کند . [17]

منبع

https://en.wikipedia.org/wiki/Median#Efficiency