माध्यिका

आँकड़ों और संभाव्यता सिद्धांत में, माध्य एक नमूना (सांख्यिकी), एक सांख्यिकीय जनसंख्या, या एक संभाव्यता वितरण के निचले आधे से उच्च आधे को अलग करने वाला मूल्य है। डेटा सेट के लिए, इसे मध्य मान के रूप में माना जा सकता है। अंकगणित माध्य (अक्सर केवल औसत के रूप में वर्णित) की तुलना में डेटा का वर्णन करने में माध्यिका की मूल विशेषता यह है कि यह बहुत बड़े या छोटे मूल्यों के एक छोटे से अनुपात द्वारा तिरछा नहीं है, और इसलिए केंद्र का बेहतर प्रतिनिधित्व प्रदान करता है। औसत आय, उदाहरण के लिए, आय वितरण के केंद्र का वर्णन करने का एक बेहतर तरीका हो सकता है क्योंकि अकेले सबसे बड़ी आय में वृद्धि का माध्यिका पर कोई प्रभाव नहीं पड़ता है। इस कारण से, मजबूत आँकड़ों में माध्यिका का केंद्रीय महत्व है।

संख्याओं का परिमित डेटा सेट
संख्याओं की एक परिमित सूची का मध्य मध्य संख्या है, जब उन संख्याओं को सबसे छोटे से सबसे बड़े क्रम में सूचीबद्ध किया जाता है।

यदि डेटा सेट में विषम संख्या में अवलोकन हैं, तो बीच का चयन किया जाता है। उदाहरण के लिए, सात संख्याओं की निम्न सूची,
 * 1, 3, 3, 6, 7, 8, 9

माध्यिका 6 है, जो चौथा मान है।

यदि डेटा सेट में टिप्पणियों की एक समान संख्या है, तो कोई विशिष्ट मध्य मान नहीं है और माध्यिका को आमतौर पर दो मध्य मानों के अंकगणितीय माध्य के रूप में परिभाषित किया जाता है। उदाहरण के लिए, यह डेटा 8 नंबरों का सेट है
 * 1, 2, 3, 4, 5, 6, 8, 9

का माध्य मान 4.5 है, अर्थात $$(4 + 5)/2$$. (अधिक तकनीकी शब्दों में, यह माध्यिका को पूरी तरह से ट्रिम किए गए अनुमानक मध्य-श्रेणी के रूप में व्याख्या करता है)।

सामान्य तौर पर, इस सम्मेलन के साथ, माध्यिका को निम्नानुसार परिभाषित किया जा सकता है: डेटा सेट के लिए $$x$$ का $$n$$ तत्व, सबसे छोटे से सबसे बड़े के क्रम में,


 * अगर $$n$$ अजीब है, $$\mathrm{median}(x) = x_{(n + 1)/ 2} $$
 * अगर $$n$$ सम है, $$\mathrm{median}(x) = \frac{x_{(n/2)} + x_{((n/2)+1)}}{2} $$

औपचारिक परिभाषा
औपचारिक रूप से, आबादी का एक औसत (सांख्यिकी) कोई भी मूल्य है जैसे कि कम से कम आधी आबादी प्रस्तावित औसत से कम या उसके बराबर है और कम से कम आधी प्रस्तावित औसत से अधिक या उसके बराबर है। जैसा कि ऊपर देखा गया है, माध्यिकाएँ अद्वितीय नहीं हो सकती हैं। यदि प्रत्येक सेट में आधी से कम आबादी होती है, तो कुछ आबादी अद्वितीय माध्यिका के बिल्कुल बराबर होती है।

माध्यिका किसी भी कमजोर क्रम (एक आयामी) डेटा के लिए अच्छी तरह से परिभाषित है, और किसी भी दूरी मीट्रिक से स्वतंत्र है। माध्यिका को इस प्रकार उन कक्षाओं पर लागू किया जा सकता है जो रैंक वाली हैं लेकिन संख्यात्मक नहीं हैं (उदाहरण के लिए जब छात्रों को ए से एफ तक ग्रेड दिया जाता है तो माध्यिका ग्रेड निकालना), हालांकि मामलों की संख्या सम होने पर परिणाम कक्षाओं के बीच में आधा हो सकता है।

दूसरी ओर, एक ज्यामितीय माध्य, किसी भी संख्या में आयामों में परिभाषित किया गया है। एक संबंधित अवधारणा, जिसमें परिणाम को नमूने के एक सदस्य के अनुरूप होने के लिए मजबूर किया जाता है, वह medoid है।

माध्यिका के लिए कोई व्यापक रूप से स्वीकृत मानक संकेतन नहीं है, लेकिन कुछ लेखक एक चर x के माध्यिका का प्रतिनिधित्व या तो x͂ या μ के रूप में करते हैं1/2 कभी-कभी एम. इनमें से किसी भी मामले में, माध्यिका के लिए इन या अन्य प्रतीकों के उपयोग को स्पष्ट रूप से परिभाषित करने की आवश्यकता होती है जब उन्हें पेश किया जाता है।

माध्यिका अन्य स्थान पैरामीटर का एक विशेष मामला है: यह दूसरा चतुर्थक, 5वाँ दशमक और 50वाँ प्रतिशतक है।

महत्वपूर्ण
माध्यिका का उपयोग स्थान पैरामीटर के माप के रूप में किया जा सकता है, जब कोई अत्यधिक मूल्यों को कम महत्व देता है, आमतौर पर क्योंकि वितरण तिरछा होता है, चरम मान ज्ञात नहीं होते हैं, या ग़ैर अविश्वसनीय होते हैं, अर्थात माप/प्रतिलेखन त्रुटियाँ हो सकती हैं।

उदाहरण के लिए, multiset  पर विचार करें
 * 1, 2, 2, 2, 3, 14।

इस मामले में माध्यिका 2 है, जैसा कि मोड (सांख्यिकी) है, और इसे 4 के अंकगणितीय माध्य की तुलना में केंद्रीय प्रवृत्ति के बेहतर संकेत के रूप में देखा जा सकता है, जो कि मूल्यों में से एक को छोड़कर सभी से बड़ा है। हालांकि, व्यापक रूप से उद्धृत अनुभवजन्य संबंध है कि माध्य की तुलना में माध्य को वितरण की पूंछ में आगे स्थानांतरित कर दिया जाता है, यह आम तौर पर सच नहीं है। अधिक से अधिक, कोई यह कह सकता है कि दो आँकड़े बहुत दूर नहीं हो सकते; देखना नीचे। चूंकि एक मध्यिका एक सेट में मध्य डेटा पर आधारित होती है, इसकी गणना करने के लिए चरम परिणामों के मूल्य को जानना आवश्यक नहीं है। उदाहरण के लिए, किसी समस्या को हल करने के लिए आवश्यक समय की जांच करने वाले मनोविज्ञान परीक्षण में, यदि बहुत कम संख्या में लोग दिए गए समय में समस्या को हल करने में विफल रहे, तब भी माध्यिका की गणना की जा सकती है। क्योंकि मध्यिका समझने में आसान और गणना करने में आसान है, जबकि माध्य के लिए एक मजबूत सन्निकटन भी है, माध्यिका वर्णनात्मक आंकड़ों में एक लोकप्रिय सारांश आंकड़ा है। इस संदर्भ में, परिवर्तनशीलता (सांख्यिकी) के माप के लिए कई विकल्प हैं: श्रेणी (सांख्यिकी), अंतःचतुर्थक श्रेणी, माध्य निरपेक्ष विचलन, और माध्य निरपेक्ष विचलन।

व्यावहारिक उद्देश्यों के लिए, स्थान और फैलाव के विभिन्न उपायों की तुलना अक्सर इस आधार पर की जाती है कि डेटा के नमूने से संबंधित जनसंख्या मूल्यों का कितना अच्छा अनुमान लगाया जा सकता है। माध्यिका, नमूना माध्यिका का उपयोग करके अनुमानित, इस संबंध में अच्छे गुण हैं। हालांकि यह आम तौर पर इष्टतम नहीं होता है यदि किसी दिए गए जनसंख्या वितरण को मान लिया जाए, इसके गुण हमेशा यथोचित रूप से अच्छे होते हैं। उदाहरण के लिए, उम्मीदवार अनुमानकों की दक्षता (सांख्यिकी) की तुलना से पता चलता है कि नमूना माध्य अधिक सांख्यिकीय रूप से कुशल है अगर और केवल अगर|जब—और केवल जब—डेटा भारी-पूंछ वाले वितरणों या वितरणों के मिश्रण से डेटा से असंदूषित है। फिर भी, माध्यिका में न्यूनतम-विचरण माध्य (बड़े सामान्य नमूनों के लिए) की तुलना में 64% दक्षता है, जिसका कहना है कि माध्यिका का प्रसरण माध्य के विचरण से ~50% अधिक होगा।

संभाव्यता वितरण
संचयी बंटन फ़ंक्शन F के साथ किसी वास्तविक संख्या-मूल्यवान संभाव्यता बंटन के लिए, माध्यिका को किसी वास्तविक संख्या m के रूप में परिभाषित किया जाता है जो असमानताओं को संतुष्ट करता है $$\int_{(-\infty,m]} dF(x) \geq \frac{1}{2} \text{ and } \int_{[m,\infty)} dF(x) \geq \frac{1}{2}.$$ एक समतुल्य phrasing F के अनुसार वितरित एक यादृच्छिक चर X का उपयोग करता है: $$\operatorname{P}(X\leq m) \geq \frac{1}{2}\text{ and } \operatorname{P}(X\geq m) \geq \frac{1}{2}$$ ध्यान दें कि इस परिभाषा के लिए एक्स को एक पूर्ण निरंतरता की आवश्यकता नहीं है (जिसकी प्रायिकता घनत्व फ़ंक्शन f है), और न ही इसे असतत वितरण की आवश्यकता है। पूर्व मामले में, असमानताओं को समानता में अपग्रेड किया जा सकता है: एक माध्यिका संतुष्ट करती है $$\operatorname{P}(X \leq m) = \int_{-\infty}^m{f(x)\, dx} = \frac{1}{2} = \int_m^{\infty}{f(x)\, dx} = \operatorname{P}(X\geq m).$$ आर पर किसी भी संभाव्यता वितरण में कम से कम एक माध्यिका होती है, लेकिन पैथोलॉजिकल मामलों में एक से अधिक माध्यिका हो सकती है: यदि 'एफ' एक अंतराल पर 1/2 स्थिर है (ताकि वहां एफ = 0 हो), तो उस अंतराल का कोई भी मान एक माध्यिका है।

विशेष वितरण के माध्यम
कुछ प्रकार के वितरणों के माध्यों की गणना उनके प्राचलों से आसानी से की जा सकती है; इसके अलावा, वे कुछ वितरणों के लिए भी मौजूद हैं जिनमें एक अच्छी तरह से परिभाषित माध्य की कमी है, जैसे कॉची वितरण:
 * एक सममित असमान वितरण का माध्य बहुलक के साथ मेल खाता है।
 * एक सममित वितरण का माध्यिका जिसका माध्य μ होता है, वह भी μ मान लेता है।
 * माध्य μ और प्रसरण σ के साथ एक सामान्य वितरण का माध्यिका2 μ है। वास्तव में, एक सामान्य बंटन के लिए, माध्य = माध्यिका = बहुलक।
 * अंतराल [ए, बी] में एक समान वितरण (निरंतर) का माध्यिका (ए+बी) /2 है, जो माध्य भी है।
 * स्थान पैरामीटर x के साथ कॉची बंटन की माध्यिका0 और स्केल पैरामीटर y x है0, स्थान पैरामीटर।
 * एक पावर लॉ x का माध्यिका−a, घातांक a के साथ > 1, 2 होता है1/(ए − 1)xmin, जहां एक्सmin न्यूनतम मूल्य है जिसके लिए शक्ति कानून धारण करता है
 * दर पैरामीटर λ के साथ एक घातीय वितरण का माध्य 2 का प्राकृतिक लघुगणक दर पैरामीटर द्वारा विभाजित है: λ−1ln 2.
 * आकृति पैरामीटर k और स्केल पैरामीटर λ के साथ वेइबुल वितरण का माध्य λ(ln 2) है1/k.

अनुकूलता संपत्ति
यादृच्छिक चर X के संबंध में एक वास्तविक चर c की औसत पूर्ण त्रुटि है
 * $$E(\left|X-c\right|)\,$$

बशर्ते कि X का प्रायिकता वितरण ऐसा हो कि उपरोक्त अपेक्षा मौजूद हो, तो m, X का एक माध्यिका है यदि और केवल यदि m, X के संबंध में माध्य निरपेक्ष त्रुटि का न्यूनतम है। विशेष रूप से, यदि m एक नमूना माध्यिका है, तो यह निरपेक्ष विचलनों के अंकगणितीय माध्य को कम करता है। हालाँकि, ध्यान दें कि ऐसे मामलों में जहाँ नमूने में समान संख्या में तत्व होते हैं, यह मिनिमाइज़र अद्वितीय नहीं होता है।

अधिक सामान्यतः, एक औसत को न्यूनतम के रूप में परिभाषित किया जाता है
 * $$E(|X-c| - |X| ),$$

जैसा कि बहुभिन्नरूपी माध्यिकाओं (विशेष रूप से, स्थानिक माध्यिका) पर अनुभाग में नीचे चर्चा की गई है।

माध्यिका की यह अनुकूलन-आधारित परिभाषा सांख्यिकीय डेटा-विश्लेषण में उपयोगी है, उदाहरण के लिए, k-माध्यिका क्लस्टरिंग|k-माध्यिका क्लस्टरिंग।

असमानता संबंधित साधन और माध्यिका
यदि वितरण में परिमित विचरण है, तो माध्यिका के बीच की दूरी $$\tilde{X}$$ और मतलब $$\bar{X}$$ एक मानक विचलन से घिरा है।

इस सीमा को 1979 में असतत नमूनों के लिए बुक और शेर द्वारा सिद्ध किया गया था, और आम तौर पर 1982 में पेज और मूर्ति द्वारा। O'Cinneide द्वारा बाद के सबूत पर एक टिप्पणी में, 1991 में मॉलोज़ ने एक संक्षिप्त प्रमाण प्रस्तुत किया जो जेन्सेन की असमानता का दो बार उपयोग करता है, निम्नलिखित नुसार। |· का उपयोग करके, हमारे पास है


 * $$\begin{align}

|\mu - m| = |\operatorname{E}(X - m)| & \leq \operatorname{E}(|X - m|) \\ & \leq \operatorname{E}(|X - \mu|) \\ & \leq \sqrt{\operatorname{E}\left((X - \mu)^2\right)} = \sigma. \end{align}$$ पहली और तीसरी असमानताएँ जेन्सेन की असमानता से आती हैं जो निरपेक्ष-मूल्य फ़ंक्शन और वर्ग फ़ंक्शन पर लागू होती हैं, जो प्रत्येक उत्तल हैं। दूसरी असमानता इस तथ्य से आती है कि एक माध्यिका निरपेक्ष विचलन फलन को न्यूनतम करती है $$a \mapsto \operatorname{E}(|X-a|)$$.

असमानता के एक बहुभिन्नरूपी संस्करण को प्राप्त करने के लिए मैलोज़ के प्रमाण को सामान्यीकृत किया जा सकता है बस पूर्ण मूल्य को एक मानक (गणित) के साथ बदलकर:
 * $$\|\mu - m\| \leq \sqrt{ \operatorname{E}\left(\|X - \mu\|^2\right) } = \sqrt{ \operatorname{trace}\left(\operatorname{var}(X)\right) }$$

जहाँ m एक स्थानिक माध्यिका है, जो कि फ़ंक्शन का एक न्यूनतम है $$a \mapsto \operatorname{E}(\|X-a\|).\,$$ स्थानिक माध्य अद्वितीय होता है जब डेटा-सेट का आयाम दो या अधिक होता है। एक वैकल्पिक सबूत एकतरफा चेबीशेव असमानता का उपयोग करता है; यह स्थान और पैमाने के मापदंडों पर एक असमानता में प्रकट होता है # एक अनुप्रयोग - माध्य और माध्यिका के बीच की दूरी। यह सूत्र भी कैंटेली की असमानता से सीधे अनुसरण करता है।

यूनिमॉडल डिस्ट्रीब्यूशन
एकरूपता वितरण के मामले में, माध्यिका और माध्य के बीच की दूरी पर एक तेज सीमा प्राप्त कर सकते हैं:


 * $$\left|\tilde{X} - \bar{X}\right| \le \left(\frac{3}{5}\right)^\frac{1}{2}\sigma \approx 0.7746\sigma$$.

माध्यिका और बहुलक के बीच एक समान संबंध होता है:


 * $$\left|\tilde{X} - \mathrm{mode}\right| \le 3^\frac{1}{2}\sigma \approx 1.732\sigma.$$

माध्यिका के लिए जेन्सेन की असमानता
जेन्सेन की असमानता बताती है कि किसी भी यादृच्छिक चर एक्स के लिए एक परिमित अपेक्षा ई [एक्स] और किसी भी उत्तल समारोह एफ के लिए


 * $$ f[ E(x) ] \le E[ f(x) ] $$

यह असमानता माध्यिका के लिए भी सामान्य है। हम एक समारोह कहते हैं $f: R &rarr; R$ एक C फंक्शन है, यदि किसी t के लिए,


 * $$ f^{-1}\left( \,(-\infty, t]\, \right) = \{ x \in \mathbb{R} \mid f(x) \le t \} $$

एक बंद अंतराल है (एक सिंगलटन (गणित) या एक खाली सेट के पतित मामलों की अनुमति)। प्रत्येक उत्तल कार्य एक सी कार्य है, लेकिन विपरीत धारण नहीं करता है। यदि f एक C फलन है, तब


 * $$ f(\operatorname{Median}[X]) \le \operatorname{Median}[ f(X)] $$

यदि माध्यिकाएँ अद्वितीय नहीं हैं, तो कथन संबंधित सर्वोच्चता के लिए मान्य है।

नमूना माध्यिका की कुशल गणना
भले ही छँटाई एल्गोरिथ्म | तुलना-सॉर्टिंग एन आइटम की आवश्यकता है $Ω(n log n)$ संचालन, चयन एल्गोरिदम ऑर्डर स्टेटिस्टिक की गणना कर सकते हैं$k$सबसे छोटा $n$ आइटम केवल के साथ $Θ(n)$ संचालन। इसमें माध्यिका शामिल है, जो कि है $n⁄2$वें क्रम के आँकड़े (या सम संख्या के नमूनों के लिए, दो मध्य क्रम के आँकड़ों का अंकगणितीय माध्य)। चयन एल्गोरिदम में अभी भी आवश्यकता का नकारात्मक पहलू है $Ω(n)$ मेमोरी, यानी, उन्हें स्मृति में पूर्ण नमूना (या इसका एक रैखिक आकार वाला भाग) रखने की आवश्यकता है। क्योंकि यह, साथ ही साथ रैखिक समय की आवश्यकता निषेधात्मक हो सकती है, माध्यिका के लिए कई आकलन प्रक्रियाएं विकसित की गई हैं। एक साधारण नियम तीन नियमों का माध्यिका है, जो माध्यिका को तीन-तत्व उपनमूने के माध्यिका के रूप में अनुमानित करता है; यह आमतौर पर जल्दी से सुलझाएं सॉर्टिंग एल्गोरिदम में सबरूटीन के रूप में उपयोग किया जाता है, जो इसके इनपुट के माध्यिका के अनुमान का उपयोग करता है। एक अधिक मजबूत अनुमानक जॉन टुकी का नौवां है, जो सीमित पुनरावर्तन के साथ लागू तीन नियमों का माध्यिका है: अगर $A$ एक सरणी (डेटा संरचना) के रूप में रखा गया नमूना है, और



तब



रेमेडियन माध्यिका के लिए एक अनुमानक है जिसके लिए रैखिक समय की आवश्यकता होती है लेकिन उप-रैखिक मेमोरी, नमूने पर एक ही पास में काम करती है।

नमूना वितरण
नमूना माध्य और नमूना मध्यिका दोनों का वितरण पियरे-साइमन लाप्लास द्वारा निर्धारित किया गया था। घनत्व फ़ंक्शन वाली जनसंख्या से नमूना माध्यिका का वितरण $$f(x)$$ माध्य के साथ असम्बद्ध रूप से सामान्य है $$\mu$$ और विचरण
 * $$ \frac{ 1 }{ 4n f( m )^2 }$$

कहाँ $$m$$ की माध्यिका है $$f(x)$$ और $$n$$ नमूना आकार है। एक आधुनिक प्रमाण नीचे दिया गया है। लाप्लास के परिणाम को अब क्वांटाइल के एक विशेष मामले के रूप में समझा जाता है # एक नमूने से क्वांटाइल का अनुमान लगाना।

सामान्य नमूनों के लिए, घनत्व है $$f(m)=1/\sqrt{2\pi\sigma^2}$$, इस प्रकार बड़े नमूनों के लिए माध्यिका का प्रसरण बराबर होता है $$({\pi}/{2})\cdot(\sigma^2/n).$$ (नीचे सेक्शन #Efficiency भी देखें।)

स्पर्शोन्मुख वितरण की व्युत्पत्ति
हम नमूना आकार को एक विषम संख्या के रूप में लेते हैं $$ N = 2n + 1 $$ और हमारे चर को निरंतर मानें; असतत चर के मामले का सूत्र नीचे दिया गया है. नमूने को माध्यिका के नीचे, माध्यिका पर और माध्यिका से ऊपर के रूप में संक्षेपित किया जा सकता है, जो संभावनाओं के साथ त्रिनोमियल वितरण से मेल खाता है $$ F(v) $$, $$ f(v) $$ और  $$ 1 - F(v) $$. एक सतत चर के लिए, कई नमूना मानों की औसत के बराबर बराबर होने की संभावना 0 है, इसलिए कोई बिंदु पर घनत्व की गणना कर सकता है $$ v $$ सीधे ट्रिनोमियल वितरण से:


 * $$ \Pr[\operatorname{Median}=v]\,dv=\frac{(2n+1)!}{n!n!} F(v)^n(1 - F(v))^nf(v)\, dv$$.

अब हम बीटा फ़ंक्शन का परिचय देते हैं। पूर्णांक तर्कों के लिए $$ \alpha $$ और $$ \beta $$, इसे इस रूप में व्यक्त किया जा सकता है $$ \Beta(\alpha,\beta) = \frac{(\alpha - 1)! (\beta - 1)!}{(\alpha + \beta - 1)!} $$. साथ ही, इसे याद करें $$ f(v)\,dv = dF(v) $$. इन संबंधों का उपयोग करना और दोनों को स्थापित करना $$ \alpha $$ और $$ \beta $$ के बराबर $$n+1$$ अंतिम अभिव्यक्ति के रूप में लिखे जाने की अनुमति देता है


 * $$ \frac{F(v)^n(1 - F(v))^n}{\Beta(n+1,n+1)} \, dF(v) $$

इसलिए माध्यिका का घनत्व कार्य एक सममित बीटा वितरण पुशफॉरवर्ड माप है $$F$$. इसका माध्य, जैसा कि हम आशा करते हैं, 0.5 है और इसका प्रसरण है $$ 1/(4(N+2)) $$. श्रृंखला नियम द्वारा, नमूना माध्यिका का संगत विचरण है


 * $$\frac{ 1 }{ 4 (N + 2) f( m )^2 }$$.

अतिरिक्त 2 नगण्य सीमा (गणित) है।

अनुभवजन्य स्थानीय घनत्व
व्यवहार में, कार्य $$ f $$ और $$ F $$ अक्सर ज्ञात या ग्रहण नहीं किया जाता है। हालाँकि, उनका अनुमान एक प्रेक्षित आवृत्ति वितरण से लगाया जा सकता है। इस खंड में, हम एक उदाहरण देते हैं। निम्नलिखित तालिका पर विचार करें, जो 3,800 (असतत-मूल्यवान) टिप्पणियों के नमूने का प्रतिनिधित्व करती है:

क्योंकि अवलोकन असतत-मूल्यवान हैं, माध्यिका के सटीक वितरण का निर्माण उपरोक्त अभिव्यक्ति का तत्काल अनुवाद नहीं है $$ \Pr(\operatorname{Median} = v) $$; किसी के नमूने में माध्यिका के कई उदाहरण हो सकते हैं (और आमतौर पर होते हैं)। इसलिए हमें इन सभी संभावनाओं का योग करना चाहिए:


 * $$ \Pr(\operatorname{Median} = v) = \sum_{i=0}^n \sum_{k=0}^n \frac{N!}{i!(N-i-k)!k!} F(v-1)^i(1 - F(v))^kf(v)^{N-i-k} $$

यहाँ, i माध्यिका से सख्ती से कम अंकों की संख्या है और k संख्या सख्ती से अधिक है।

इन प्रारंभिकताओं का उपयोग करते हुए, माध्य और माध्यिका की मानक त्रुटियों पर नमूना आकार के प्रभाव की जांच करना संभव है। प्रेक्षित माध्य 3.16 है, अवलोकित अपरिष्कृत मध्यिका 3 है और अवलोकित प्रक्षेपित मध्यिका 3.174 है। निम्न तालिका कुछ तुलनात्मक आँकड़े देती है।

माध्यिका का अपेक्षित मान थोड़ा कम हो जाता है क्योंकि नमूना आकार बढ़ता है, जैसा कि अपेक्षित होगा, माध्यिका और माध्य दोनों की मानक त्रुटियाँ नमूना आकार के व्युत्क्रम वर्गमूल के अनुपात में होती हैं। स्पर्शोन्मुख सन्निकटन मानक त्रुटि को कम करके सावधानी के पक्ष में गलतियाँ करता है।

नमूना डेटा से भिन्नता का अनुमान
का मान है $$(2 f(x))^{-2}$$- का विषम मूल्य $$n^{-1/2} (\nu - m)$$ कहाँ $$\nu$$ जनसंख्या औसत है-कई लेखकों द्वारा अध्ययन किया गया है। मानक डिलीट वन रीसैंपलिंग (सांख्यिकी) #Jackknife विधि लगातार अनुमानक परिणाम उत्पन्न करती है। एक विकल्प—डिलीट k विधि—जहाँ $$k$$ नमूना आकार के साथ बढ़ता है विषम रूप से सुसंगत दिखाया गया है। बड़े डेटा सेट के लिए यह विधि कम्प्यूटेशनल रूप से महंगी हो सकती है। बूटस्ट्रैप अनुमान सुसंगत होने के लिए जाना जाता है, लेकिन बहुत धीरे-धीरे अभिसरण करता है (कम्प्यूटेशनल जटिलता सिद्धांत $$n^{-\frac{1}{4}}$$). अन्य तरीके प्रस्तावित किए गए हैं लेकिन उनका व्यवहार बड़े और छोटे नमूनों के बीच भिन्न हो सकता है।

दक्षता
नमूना माध्यिका की दक्षता (आँकड़े), माध्यिका के विचरण के माध्य के विचरण के अनुपात के रूप में मापी जाती है, नमूना आकार और अंतर्निहित जनसंख्या वितरण पर निर्भर करती है। आकार के नमूने के लिए $$N = 2n + 1$$ सामान्य वितरण से, बड़े एन के लिए दक्षता है


 * $$ \frac{2}{\pi} \frac{N+2}{N} $$

दक्षता की ओर प्रवृत्त होता है $$ \frac{2}{\pi} $$ जैसा $$N$$ अनंत की ओर जाता है।

दूसरे शब्दों में, माध्यिका का आपेक्षिक प्रसरण होगा $$\pi/2 \approx 1.57$$, या माध्य के विचरण से 57% अधिक - माध्यिका की सापेक्ष मानक त्रुटि होगी $$(\pi/2)^\frac{1}{2} \approx 1.25$$, या माध्य की मानक त्रुटि से 25% अधिक, $$\sigma/\sqrt{n}$$ (ऊपर अनुभाग #नमूना वितरण भी देखें।)

अन्य अनुमानक
अविभाजित वितरणों के लिए जो एक माध्यिका के बारे में सममित हैं, हॉजेस-लेहमन अनुमानक एक मजबूत आँकड़े और जनसंख्या माध्यिका की अत्यधिक दक्षता (आँकड़े) हैं। यदि डेटा एक सांख्यिकीय मॉडल द्वारा प्रतिनिधित्व किया जाता है जो संभाव्यता वितरण के एक विशेष परिवार को निर्दिष्ट करता है, तो माध्यिका का अनुमान उस संभाव्यता वितरण के परिवार को डेटा में फिट करके और फिट किए गए वितरण के सैद्धांतिक माध्य की गणना करके प्राप्त किया जा सकता है। पेरेटो प्रक्षेप इसका एक अनुप्रयोग है जब जनसंख्या को पारेटो वितरण माना जाता है।

बहुभिन्नरूपी माध्यिका
इससे पहले, इस लेख में अविभाजित माध्यिका पर चर्चा की गई थी, जब नमूना या जनसंख्या का एक-आयाम था। जब आयाम दो या उच्चतर होता है, तो ऐसी कई अवधारणाएँ होती हैं जो एकविभाजित माध्यिका की परिभाषा का विस्तार करती हैं; इस तरह के प्रत्येक बहुभिन्नरूपी माध्यिका एकात्मक माध्यिका से सहमत होती है जब आयाम बिल्कुल एक होता है।

सीमांत माध्यिका
निर्देशांक के एक निश्चित सेट के संबंध में परिभाषित वैक्टर के लिए सीमांत माध्य परिभाषित किया गया है। एक सीमांत माध्यिका को सदिश के रूप में परिभाषित किया जाता है, जिसके घटक अविभाजित माध्यिकाएँ हैं। सीमांत मध्यिका की गणना करना आसान है, और इसके गुणों का अध्ययन पुरी और सेन द्वारा किया गया था।

ज्यामितीय माध्यिका
नमूना बिंदुओं के असतत सेट का ज्यामितीय माध्यिका $$x_1,\ldots x_N$$ यूक्लिडियन अंतरिक्ष में है नमूना बिंदुओं के लिए दूरियों के योग को कम करने वाला बिंदु।


 * $$\hat\mu = \underset{\mu\in \mathbb{R}^m}{\operatorname{arg\,min}} \sum_{n=1}^{N} \left \| \mu-x_n \right \|_2$$

सीमांत माध्यिका के विपरीत, ज्यामितीय माध्य यूक्लिडियन समानता (ज्यामिति) जैसे अनुवाद (ज्यामिति) और रोटेशन (गणित) के संबंध में समान है।

सभी दिशाओं में माध्यिका
यदि सभी समन्वय प्रणालियों के लिए सीमांत माध्यिकाएं मेल खाती हैं, तो उनके सामान्य स्थान को सभी दिशाओं में माध्यिका कहा जा सकता है। यह अवधारणा माध्यिका मतदाता प्रमेय के कारण मतदान सिद्धांत के लिए प्रासंगिक है। जब यह मौजूद होता है, तो सभी दिशाओं में माध्य ज्यामितीय माध्यिका (कम से कम असतत वितरण के लिए) के साथ मेल खाता है।

केंद्र बिंदु
उच्च आयामों में माध्यिका का एक वैकल्पिक सामान्यीकरण केंद्र बिंदु (ज्यामिति) है।

इंटरपोलेटेड माध्यिका
असतत चर के साथ व्यवहार करते समय, कभी-कभी देखे गए मूल्यों को अंतर्निहित निरंतर अंतराल के मध्य बिंदु के रूप में मानना ​​​​उपयोगी होता है। इसका एक उदाहरण लिकर्ट पैमाना है, जिस पर संभावित प्रतिक्रियाओं की एक निर्धारित संख्या के साथ एक पैमाने पर राय या प्राथमिकताएं व्यक्त की जाती हैं। यदि पैमाने में सकारात्मक पूर्णांक होते हैं, तो 3 के अवलोकन को 2.50 से 3.50 के अंतराल का प्रतिनिधित्व करने वाला माना जा सकता है। अंतर्निहित चर के माध्यिका का अनुमान लगाना संभव है। यदि, कहते हैं, 22% प्रेक्षणों का मान 2 या उससे कम है और 55.0% का मान 3 या उससे कम है (इसलिए 33% का मान 3 है), तो माध्यक $$ m $$ 3 है क्योंकि माध्यिका का सबसे छोटा मान है $$ x $$ जिसके लिए $$ F(x) $$ आधे से अधिक है। लेकिन प्रक्षेपित औसत कहीं 2.50 और 3.50 के बीच है। पहले हम अंतराल की चौड़ाई का आधा हिस्सा जोड़ते हैं $$ w $$ माध्यिका अंतराल की ऊपरी सीमा प्राप्त करने के लिए माध्यिका के लिए। फिर हम अंतराल चौड़ाई के उस अनुपात को घटाते हैं जो 33% के अनुपात के बराबर होता है जो 50% चिह्न से ऊपर होता है। दूसरे शब्दों में, हम अंतराल चौड़ाई को प्रेक्षणों की संख्या के अनुपात में विभाजित करते हैं। इस मामले में, 33% माध्यिका के नीचे 28% और उसके ऊपर 5% में विभाजित है, इसलिए हम 3.50 के ऊपरी सीमा से अंतराल चौड़ाई के 5/33 को घटाकर 3.35 का एक प्रक्षेपित औसत देते हैं। अधिक औपचारिक रूप से, यदि मान $$ f(x) $$ ज्ञात हैं, प्रक्षेपित माध्यिका की गणना की जा सकती है


 * $$ m_\text{int} = m + w\left[\frac{1}{2} - \frac{F( m ) - \frac{1}{2} }{f( m )}\right]. $$

वैकल्पिक रूप से, यदि देखे गए नमूने में हैं $$ k $$ औसत श्रेणी से ऊपर स्कोर, $$ j $$ इसमें स्कोर और $$ i $$ इसके नीचे स्कोर तो इंटरपोलेटेड माध्यिका द्वारा दिया जाता है


 * $$ m_\text{int} = m + \frac{w}{2} \left[\frac{k - i} j\right]. $$

छद्म-माध्यिका
अविभाजित वितरणों के लिए जो एक माध्यिका के बारे में सममित हैं, हॉजेस-लेहमन अनुमानक जनसंख्या मध्यिका का एक मजबूत और अत्यधिक कुशल अनुमानक है; गैर-सममित वितरण के लिए, हॉजेस-लेहमन अनुमानक जनसंख्या छद्म-माध्यिका का एक मजबूत और अत्यधिक कुशल अनुमानक है, जो एक सममित वितरण का माध्यिका है और जो जनसंख्या मध्यिका के करीब है। हॉजेस-लेहमन अनुमानक को बहुभिन्नरूपी वितरणों के लिए सामान्यीकृत किया गया है।

प्रतिगमन के वेरिएंट
थिल-सेन अनुमानक ढलानों के माध्यिका खोजने के आधार पर मजबूत सांख्यिकी रेखीय प्रतिगमन के लिए एक विधि है।

माध्य फ़िल्टर
मध्य फ़िल्टर  मूर्ति प्रोद्योगिकी  का एक महत्वपूर्ण उपकरण है, जो ग्रेस्केल इमेज से किसी भी नमक और काली मिर्च के शोर को प्रभावी ढंग से हटा सकता है।

क्लस्टर विश्लेषण
क्लस्टर विश्लेषण में, k-माध्यिका क्लस्टरिंग एल्गोरिदम क्लस्टर्स को परिभाषित करने का एक तरीका प्रदान करता है, जिसमें क्लस्टर-साधनों के बीच की दूरी को अधिकतम करने का मानदंड जो कि k-मतलब क्लस्टरिंग में उपयोग किया जाता है, को क्लस्टर-माध्यकों के बीच की दूरी को अधिकतम करके बदल दिया जाता है।

माध्यिका-मध्य रेखा
यह मजबूत प्रतिगमन की एक विधि है। यह विचार 1940 में अब्राहम का जन्म हुआ  के समय का है, जिन्होंने द्विचर डेटा के एक सेट को स्वतंत्र पैरामीटर के मान के आधार पर दो हिस्सों में विभाजित करने का सुझाव दिया था। $$x$$: माध्यिका से कम मानों वाला बायां आधा भाग और माध्यिका से अधिक मानों वाला दायां आधा भाग। उन्होंने आश्रित के साधन लेने का सुझाव दिया $$y$$ और स्वतंत्र $$x$$ बाएँ और दाएँ हिस्सों के चर और इन दो बिंदुओं को मिलाने वाली रेखा के ढलान का अनुमान लगाना। डेटा सेट में अधिकांश बिंदुओं को फिट करने के लिए लाइन को तब समायोजित किया जा सकता है।

1942 में नायर और श्रीवास्तव ने एक समान विचार का सुझाव दिया, लेकिन उप-नमूने के साधनों की गणना करने से पहले नमूने को तीन बराबर भागों में विभाजित करने की वकालत की। ब्राउन और मूड ने 1951 में साधन के बजाय दो उप-नमूने के माध्यिका का उपयोग करने का विचार प्रस्तावित किया। टकी ने इन विचारों को संयोजित किया और नमूने को तीन समान आकार के उपनमूने में विभाजित करने और उप-नमूने के माध्यिका के आधार पर रेखा का अनुमान लगाने की सिफारिश की।

माध्य-निष्पक्ष अनुमानक
औसत-निष्पक्ष आकलनकर्ता का कोई भी पूर्वाग्रह चुकता-त्रुटि हानि फ़ंक्शन के संबंध में जोखिम (अपेक्षित हानि) को कम करता है, जैसा कि गॉस द्वारा देखा गया है। ए एस्टिमेटर का पूर्वाग्रह # माध्य निष्पक्ष अनुमानक, और अन्य हानि कार्यों के संबंध में पूर्वाग्रह | मध्य-निष्पक्ष अनुमानक पूर्ण विचलन के संबंध में जोखिम को कम करता है। पूर्ण-विचलन हानि फ़ंक्शन, जैसा कि लाप्लास द्वारा देखा गया है। अन्य नुकसान कार्यों का उपयोग सांख्यिकीय सिद्धांत में किया जाता है, विशेष रूप से मजबूत आंकड़ों में।

1947 में [https://web.archive.org/web/20110310043642/http://www.universityofcalifornia.edu/senate/inmemoriam/georgewbrown.htm जॉर्ज डब्ल्यू. ब्राउन] द्वारा मध्य-निष्पक्ष आकलनकर्ताओं के सिद्धांत को पुनर्जीवित किया गया:

"An estimate of a one-dimensional parameter θ will be said to be median-unbiased if, for fixed θ, the median of the distribution of the estimate is at the value θ; i.e., the estimate underestimates just as often as it overestimates. This requirement seems for most purposes to accomplish as much as the mean-unbiased requirement and has the additional property that it is invariant under one-to-one transformation."

- page 584

मध्य-निष्पक्ष आकलनकर्ताओं के और गुणों की सूचना दी गई है।    मध्य-निष्पक्ष आकलनकर्ता अंतःक्रियात्मक फलन|एक-से-एक परिवर्तन के तहत अपरिवर्तनीय हैं।

मध्य-निष्पक्ष आकलनकर्ताओं के निर्माण के तरीके हैं जो इष्टतम हैं (माध्य-निष्पक्ष अनुमानकों के लिए न्यूनतम-विचरण संपत्ति के समान अर्थ में)। मोनोटोन संभावना अनुपात वाले संभाव्यता वितरण के लिए इस तरह के निर्माण मौजूद हैं। मोनोटोन संभावना-कार्य। ऐसी ही एक प्रक्रिया राव-ब्लैकवेल प्रमेय का एक एनालॉग है। माध्य-निष्पक्ष आकलनकर्ताओं के लिए राव-ब्लैकवेल प्रक्रिया: यह प्रक्रिया राव-ब्लैकवेल प्रक्रिया की तुलना में संभाव्यता वितरण के एक छोटे वर्ग के लिए है, लेकिन हानि कार्यों के एक बड़े वर्ग के लिए है।

इतिहास
प्राचीन निकट पूर्व में वैज्ञानिक शोधकर्ताओं ने सारांश आंकड़ों का पूरी तरह से उपयोग नहीं किया है, इसके बजाय उन मूल्यों का चयन किया है जो एक व्यापक सिद्धांत के साथ अधिकतम स्थिरता प्रदान करते हैं जो विभिन्न प्रकार की घटनाओं को एकीकृत करता है। भूमध्यसागरीय (और, बाद में, यूरोपीय) विद्वानों के समुदाय के भीतर, माध्य जैसे आँकड़े मौलिक रूप से मध्ययुगीन और प्रारंभिक आधुनिक विकास हैं। (यूरोप के बाहर माध्यिका का इतिहास और इसके पूर्ववर्तियों का अपेक्षाकृत अध्ययन नहीं किया गया है।)

भिन्न आर्थिक मूल्यांकन का निष्पक्ष विश्लेषण करने के लिए माध्यिका का विचार 6वीं शताब्दी में तल्मूड में प्रकट हुआ। हालाँकि, यह अवधारणा व्यापक वैज्ञानिक समुदाय में नहीं फैली।

इसके बजाय, आधुनिक माध्यिका का निकटतम पूर्वज अल-बिरूनी द्वारा आविष्कृत मध्य-श्रेणी है। बाद के विद्वानों के लिए अल-बिरूनी के कार्य का प्रसारण अस्पष्ट है। अल-बिरूनी ने अपनी तकनीक को धातुओं की जांच के लिए लागू किया, लेकिन, उनके काम को प्रकाशित करने के बाद, अधिकांश परखने वालों ने अभी भी अपने परिणामों से सबसे प्रतिकूल मूल्य को अपनाया, ऐसा न हो कि वे  मानमर्दन  दिखाई दें।  हालांकि, डिस्कवरी के युग के दौरान समुद्र में नेविगेशन में वृद्धि का मतलब था कि जहाज के नेविगेटर को तेजी से शत्रुतापूर्ण तटों के विरुद्ध प्रतिकूल मौसम में अक्षांश का निर्धारण करने का प्रयास करना पड़ा, जिससे सारांश आंकड़ों में नए सिरे से रुचि पैदा हुई। चाहे फिर से खोजा गया हो या स्वतंत्र रूप से आविष्कार किया गया हो, हैरियट के निर्देशों में रैले की यात्रा के लिए गुयाना, 1595 में समुद्री नाविकों के लिए मध्य-श्रेणी की सिफारिश की गई है।

माध्यिका का विचार सबसे पहले एडवर्ड राइट (गणितज्ञ) की 1599 की पुस्तक सर्टेनी एरर्स इन नेविगेशन में कम्पास नेविगेशन के बारे में एक खंड पर प्रकट हुआ होगा। राइट मापा मूल्यों को छोड़ने के लिए अनिच्छुक था, और यह महसूस किया हो सकता है कि मध्य-श्रेणी की तुलना में डेटासेट के अधिक अनुपात को शामिल करने वाले माध्यिका के सही होने की अधिक संभावना थी। हालांकि, राइट ने अपनी तकनीक के उपयोग का उदाहरण नहीं दिया, जिससे यह सत्यापित करना कठिन हो गया कि उन्होंने माध्यिका की आधुनिक धारणा का वर्णन किया है।  माध्यिका (संभाव्यता के संदर्भ में) निश्चित रूप से क्रिस्टियान ह्यूजेन्स के पत्राचार में प्रकट हुई, लेकिन एक आंकड़े के उदाहरण के रूप में जो बीमांकिक विज्ञान के लिए अनुपयुक्त था।

माध्यिका की सबसे पहली सिफारिश 1757 की है, जब रोजर जोसेफ बोस्कोविच ने L1 मानदंड|L के आधार पर एक प्रतिगमन विधि विकसित की थी।1 मानदंड और इसलिए अप्रत्यक्ष रूप से माध्यिका पर। 1774 में, पियरे-साइमन लाप्लास ने इस इच्छा को स्पष्ट किया: उन्होंने सुझाव दिया कि माध्यिका को पश्च संभाव्यता घनत्व फ़ंक्शन के मान के मानक अनुमानक के रूप में उपयोग किया जाना चाहिए। त्रुटि की अपेक्षित परिमाण को कम करने के लिए विशिष्ट मानदंड था; $$|\alpha - \alpha^{*}|$$ कहाँ $$\alpha^{*}$$ अनुमान है और $$\alpha$$ सच्चा मूल्य है। इसके लिए, लाप्लास ने 1800 के शुरुआती दिनों में नमूना माध्य और नमूना माध्यिका दोनों के वितरण को निर्धारित किया। हालांकि, एक दशक बाद, कार्ल फ्रेडरिक गॉस और एड्रियन मैरी लीजेंड्रे ने कम से कम वर्ग विधि विकसित की, जो कम करता है $$(\alpha - \alpha^{*})^{2}$$ माध्य प्राप्त करना। प्रतिगमन के संदर्भ में, गॉस और लेजेंड्रे के नवप्रवर्तन अत्यधिक आसान संगणना प्रदान करते हैं। नतीजतन, 150 साल बाद कंप्यूटिंग डिवाइस#एनालॉग कंप्यूटर के उदय तक लेपलेस के प्रस्ताव को आम तौर पर खारिज कर दिया गया था (और अभी भी एक अपेक्षाकृत असामान्य एल्गोरिदम है)। 1843 में एंटोनी ऑगस्टिन कोर्टन पहले थे मध्यिका शब्द का उपयोग उस मान के लिए करना जो संभाव्यता बंटन को दो बराबर हिस्सों में विभाजित करता है। गुस्ताव थियोडोर फेचनर ने समाजशास्त्रीय और मनोवैज्ञानिक घटनाओं में मध्यिका (सेंट्रलवर्थ) का इस्तेमाल किया। पहले इसका उपयोग केवल खगोल विज्ञान और संबंधित क्षेत्रों में किया जाता था। गुस्ताव थियोडोर फेचनर ने माध्यिका को डेटा के औपचारिक विश्लेषण में लोकप्रिय बनाया, हालांकि इसका उपयोग पहले लाप्लास द्वारा किया गया था, और माध्यिका फ्रांसिस य्सिड्रो एजवर्थ|एफ की एक पाठ्यपुस्तक में दिखाई दी। वाई एडगेवर्थ। फ्रांसिस गैल्टन ने 1881 में अंग्रेजी शब्द मेडियन का प्रयोग किया, पहले 1869 में मध्य-सबसे मूल्य और 1880 में माध्यम का इस्तेमाल किया था। सांख्यिकीविदों ने 19वीं शताब्दी के दौरान इसकी सहज स्पष्टता और मैन्युअल संगणना में आसानी के लिए माध्यकों के उपयोग को तीव्रता से प्रोत्साहित किया। हालांकि, माध्यिका की धारणा खुद को उच्च क्षणों के सिद्धांत के साथ-साथ अंकगणितीय माध्य के लिए उधार नहीं देती है, और कंप्यूटर द्वारा गणना करना बहुत कठिन है। परिणामस्वरूप, 20वीं शताब्दी के दौरान अंकगणितीय माध्य द्वारा सामान्य औसत की धारणा के रूप में औसत को लगातार हटा दिया गया।

यह भी देखें

 * पूर्ण विचलन
 * एक अनुमानक का पूर्वाग्रह
 * केंद्रीय प्रवृत्ति
 * Lipschitz कार्यों के लिए माप की एकाग्रता
 * माध्यिका ग्राफ
 * माध्यिकाओं की माध्यिका - रैखिक समय में अनुमानित माध्यिका की गणना करने के लिए एल्गोरिथम
 * औसत खोज
 * माध्यिका ढाल
 * औसत मतदाता सिद्धांत
 * मेडोइड्स - उच्च आयामों में माध्यिका का सामान्यीकरण

बाहरी संबंध

 * Median as a weighted arithmetic mean of all Sample Observations
 * On-line calculator
 * Calculating the median
 * A problem involving the mean, the median, and the mode.
 * Python script for Median computations and income inequality metrics
 * Fast Computation of the Median by Successive Binning
 * 'Mean, median, mode and skewness', A tutorial devised for first-year psychology students at Oxford University, based on a worked example.
 * The Complex SAT Math Problem Even the College Board Got Wrong: Andrew Daniels in Popular Mechanics
 * 'Mean, median, mode and skewness', A tutorial devised for first-year psychology students at Oxford University, based on a worked example.
 * The Complex SAT Math Problem Even the College Board Got Wrong: Andrew Daniels in Popular Mechanics