ادامه میانه
توزیع های غیر مد [ ویرایش ]
در مورد توزیع های غیر مد ، می توان به فاصله تیزتر از حد متوسط و میانگین پیوست:
. [18]
یک رابطه مشابه بین میانه و حالت برقرار است:
نابرابری جنسن برای مدیانها [ ویرایش ]
نابرابری جنسن بیان می کند که برای هر متغیر تصادفی X با انتظار محدود E [ X ] و برای هر تابع محدب f
این نابرابری به میانه نیز تعمیم می یابد. ما می گوییم یک تابع f: ℝ → ℝ یک تابع C است اگر برای هر t ،
یک فاصله بسته است (اجازه می دهد موارد منحط یک نقطه یا یک مجموعه خالی ). هر تابع C محدب است ، اما عکس آن ثابت نیست. اگر f یک تابع C است ، پس
اگر میانه ها منحصر به فرد نباشند ، این عبارت برای سوپرما مربوطه صدق می کند. [19]
پزشکیان نمونه [ ویرایش ]
در این بخش نظریه برآورد میانگین جمعیت از یک نمونه مورد بحث قرار می گیرد. برای محاسبه میانه یک نمونه "با دست" ، به بخش مجموعه متناهی اعداد بالا مراجعه کنید.
میانگین نمونه [ ویرایش ]
محاسبه کارآمد میانه نمونه [ ویرایش ]
حتی اگر مرتب سازی و مقایسه n مورد به عملیات Ω ( n log n ) نیاز داشته باشد ، الگوریتم های انتخاب می توانند کوچکترین k از n مورد را فقط با عملیات Θ ( n ) محاسبه کنند. این شامل میانه است که می باشدn/2آمار مرتبه هفتم (یا برای تعداد زوجی از نمونه ها ، میانگین حسابی دو آمار مرتبه میانی). [20]
الگوریتم های انتخاب هنوز منفی نیاز به حافظه Ω ( n ) را دارند ، به این معنی که آنها باید نمونه کامل (یا بخشی از آن را به اندازه خطی) در حافظه داشته باشند. از آنجا که این ، و همچنین نیاز به زمان خطی ، می تواند منع کننده باشد ، چندین روش تخمین برای متوسط ساخته شده است. یک ساده ، میانه سه قاعده است که میانه را به عنوان میانه یک مثال فرعی سه عنصر تخمین می زند. این معمولاً به عنوان زیرروال در الگوریتم مرتب سازی quicksort استفاده می شود ، که از برآورد میانه ورودی خود استفاده می کند. محاسبه کننده قوی تر ، Tukey 's ninther است که میانگین سه قاعده اعمال شده با بازگشت محدود است: [21] اگر Aنمونه ای است که به صورت آرایه تنظیم شده است ، و
med3 ( A ) = متوسط ( A [1] ، A [n/2] ، A [ n ]) ،
سپس
ninther ( A ) = med3 (med3 ( A [1 ...1/3n ]) ، med3 ( A [1/3n ...2/3n ]) ، med3 ( A [2/3n ... n ]))
remedian یک برآوردگر برای میانه است که نیاز به زمان خطی اما حافظه زیر خطی، عامل در یک پاس تک بیش از نمونه است. [22]
توزیع نمونه [ ویرایش ]
توزیع هر دو میانگین و میانگین نمونه توسط لاپلاس تعیین شد . [23] توزیع میانگین نمونه از جمعیتی با عملکرد تراکم از نظر مجانبی با میانگین طبیعی است
و واریانس [24]
جایی که متوسط است
و
اندازه نمونه است یک مدرک مدرن در زیر آمده است. نتیجه لاپلاس اکنون به عنوان یک مورد خاص از توزیع مجانبی کوانتولهای دلخواه درک می شود .
برای نمونه های معمولی ، چگالی برابر است، بنابراین برای نمونه های بزرگ واریانس میانه برابر است
[7] (به بخش # کارایی در زیرنیز مراجعهکنید.)
استخراج توزیع مجانبی [ ویرایش ]
ما اندازه نمونه را عدد فرد در نظر می گیریم و متغیر خود را مداوم فرض کنیم. فرمول مورد متغیرهای گسسته در زیر در § چگالی محلی تجربی آورده شده است . نمونه را می توان به صورت "زیر متوسط" ، "در متوسط" و "بالاتر از حد متوسط" خلاصه کرد ، که مربوط به توزیع مثلثی با احتمالات است
و
. برای یک متغیر پیوسته ، احتمال اینکه مقادیر چند نمونه دقیقاً برابر با میانه باشد ، 0 است ، بنابراین می توان چگالی نقطه را محاسبه کرد
مستقیماً از توزیع مثلث:
.
اکنون تابع بتا را معرفی می کنیم. برای استدلال های عدد صحیح و
، این را می توان به صورت زیر بیان کرد
. همچنین ، به یاد داشته باشید که
. استفاده از این روابط و تنظیم هر دو
و
مساوی با
اجازه می دهد تا آخرین عبارت به صورت
از این رو تابع چگالی میانه یک توزیع بتا متقارن است که به جلو رانده می شود. همانطور که انتظار داریم میانگین آن 0.5 و واریانس آن باشد
. طبق قاعده زنجیره ای ، واریانس مربوطه از میانه نمونه است
.
2 مورد اضافی در حد ناچیز است .
تراکم محلی تجربی [ ویرایش ]
در عمل ، توابع و
اغلب شناخته شده یا فرض نیستند. با این حال ، آنها را می توان از یک توزیع فراوانی مشاهده شده تخمین زد. در این بخش ، مثالی می زنیم. جدول زیر را در نظر بگیرید ، نمونه ای از 3800 مشاهده (با ارزش گسسته) را نشان می دهد:
v | 0 | 0.5 | 1 | 1.5 | 2 | 2.5 | 3 | 3.5 | 4 | 4.5 | 5 |
---|---|---|---|---|---|---|---|---|---|---|---|
f (v) | 0.000 | 0.008 | 0.010 | 0.013 | 0.083 | 0.108 | 0.328 | 0.220 | 0.202 | 0.023 | 0.005 |
F (v) | 0.000 | 0.008 | 0.018 | 0.031 | 0.114 | 0.222 | 0.550 | 0.770 | 0.972 | 0.995 | 1.000 |
از آنجا که مشاهدات دارای ارزش گسسته هستند ، ساخت توزیع دقیق میانه ترجمه فوری عبارت فوق برای ؛ ممکن است (و به طور معمول وجود داشته باشد) چندین نمونه از میانگین در نمونه خود داشته باشد. بنابراین ما باید تمام این احتمالات را جمع بندی کنیم:
در اینجا ، من تعداد نقاط کاملاً کمتر از میانگین و k تعداد دقیقاً بیشتر است.
با استفاده از این مقدمات ، می توان تأثیر اندازه نمونه را روی خطاهای استاندارد میانگین و متوسط بررسی کرد. میانگین مشاهده شده 3.16 ، متوسط خام مشاهده شده 3 و متوسط درونی شده مشاهده شده 3.174 است. جدول زیر برخی از آمار مقایسه را نشان می دهد.
اندازهی نمونه آمار | 3 | 9 | 15 | 21 |
---|---|---|---|---|
مقدار مورد انتظار میانه | 3.198 | 3.191 | 3.174 | 3.161 |
خطای استاندارد میانه (فرمول بالا) | 0.482 | 0.305 | 0.257 | 0.239 |
خطای استاندارد میانه (تقریب مجانبی) | 0.879 | 0.508 | 0.393 | 0.332 |
خطای استاندارد میانگین | 0.421 | 0.243 | 0.188 | 0.159 |
مقدار مورد انتظار میانه با افزایش اندازه نمونه اندکی کاهش می یابد در حالی که همانطور که انتظار می رود خطاهای استاندارد هر دو میانگین و میانگین متناسب با ریشه مربع معکوس اندازه نمونه است. تقریب مجانبی با بیش از حد ارزیابی کردن خطای استاندارد باعث احتیاط می شود.
منبع
https://en.wikipedia.org/wiki/Median#Efficiency