केंद्रीय प्रवृत्ति

आँकड़ों में, एक केंद्रीय प्रवृत्ति (या केंद्रीय प्रवृत्ति का माप) संभाव्यता वितरण के लिए एक केंद्रीय या विशिष्ट मूल्य है। बोलचाल की भाषा में, केंद्रीय प्रवृत्ति के उपायों को अक्सर औसत कहा जाता है। केंद्रीय प्रवृत्ति शब्द 1920 के दशक के उत्तरार्ध से आता है।

केंद्रीय प्रवृत्ति के सबसे आम उपाय अंकगणितीय माध्य, माध्यिका और मोड (सांख्यिकी) हैं। एक मध्य प्रवृत्ति की गणना या तो मूल्यों के परिमित सेट के लिए या सैद्धांतिक वितरण के लिए की जा सकती है, जैसे कि सामान्य वितरण। कभी-कभी लेखक कुछ केंद्रीय मूल्य के आसपास क्लस्टर करने के लिए मात्रात्मक डेटा की प्रवृत्ति को निरूपित करने के लिए केंद्रीय प्रवृत्ति का उपयोग करते हैं। एक वितरण की केंद्रीय प्रवृत्ति आमतौर पर इसके सांख्यिकीय फैलाव या परिवर्तनशीलता के विपरीत होती है; फैलाव और केंद्रीय प्रवृत्ति वितरण के अक्सर विशेषता गुण होते हैं। विश्लेषण यह तय कर सकता है कि डेटा के फैलाव के आधार पर एक मजबूत या कमजोर केंद्रीय प्रवृत्ति है या नहीं।

उपाय
निम्नलिखित को एक-आयामी डेटा पर लागू किया जा सकता है। परिस्थितियों के आधार पर, केंद्रीय प्रवृत्ति की गणना करने से पहले डेटा को बदलना उचित हो सकता है। उदाहरण मानों का वर्ग कर रहे हैं या लघुगणक ले रहे हैं। क्या एक परिवर्तन उचित है और यह क्या होना चाहिए, विश्लेषण किए जा रहे डेटा पर बहुत अधिक निर्भर करता है।


 * अंकगणित माध्य <विस्तार शैली = फ़ॉन्ट-वजन: सामान्य; >या बस, का अर्थ है: डेटा सेट में अवलोकनों की संख्या से विभाजित सभी मापों का योग।
 * माध्यिका: मध्य मान जो डेटा सेट के निचले आधे हिस्से से उच्च आधे को अलग करता है। मध्यिका और मोड केंद्रीय प्रवृत्ति के एकमात्र उपाय हैं जिनका उपयोग माप के स्तर # ऑर्डिनल स्केल के लिए किया जा सकता है, जिसमें मूल्यों को एक दूसरे के सापेक्ष रैंक दिया जाता है लेकिन बिल्कुल नहीं मापा जाता है।
 * मोड (सांख्यिकी): डेटा सेट में सबसे लगातार मूल्य। यह एकमात्र केंद्रीय प्रवृत्ति माप है जिसका उपयोग माप के स्तर # नाममात्र स्तर के साथ किया जा सकता है, जिसमें विशुद्ध रूप से गुणात्मक श्रेणी असाइनमेंट होते हैं।
 * सामान्यीकृत माध्य: पायथागॉरियन माध्य का एक सामान्यीकरण, एक प्रतिपादक द्वारा निर्दिष्ट।
 * ज्यामितीय माध्य: डेटा मानों के गुणनफल का Nवां मूल, जहां इनमें से n हैं। यह माप केवल उन डेटा के लिए मान्य है जिन्हें पूरी तरह से सकारात्मक पैमाने पर मापा जाता है।
 * अनुकूल माध्य: डेटा मानों के व्युत्क्रम के अंकगणितीय माध्य का गुणनात्मक व्युत्क्रम। यह उपाय भी केवल उन डेटा के लिए मान्य है जिन्हें पूरी तरह से सकारात्मक पैमाने पर मापा जाता है।
 * भारित अंकगणितीय माध्य: एक अंकगणितीय माध्य जिसमें कुछ डेटा तत्वों का भार शामिल होता है।
 * काटे गए माध्य <अवधि शैली = फ़ॉन्ट-वजन: सामान्य; >या छंटनी की गई माध्य: एक निश्चित संख्या या उच्चतम और निम्नतम डेटा मानों के अनुपात के बाद डेटा मानों का अंकगणितीय माध्य हटा दिया गया है।
 * अंतर[[चतुर्थक माध्य]]: अन्तःचतुर्थक श्रेणी के भीतर डेटा के आधार पर एक छोटा मतलब।
 * मध्य स्तर: डेटा सेट के अधिकतम और न्यूनतम मूल्यों का अंकगणितीय माध्य।
 * अनुसरण: पहले और तीसरे चतुर्थक का अंकगणितीय माध्य।
 * अर्ध-अंकगणितीय माध्य: सामान्यीकृत माध्य का एक सामान्यीकरण, एक सतत फ़ंक्शन इंजेक्शन समारोह फ़ंक्शन (गणित) द्वारा निर्दिष्ट।
 * Trimean: माध्यिका और दो चतुर्थक का भारित अंकगणितीय माध्य।
 * विनसोराइज्ड माध्य: एक अंकगणितीय माध्य जिसमें ग़ैर को माध्यिका के निकट के मानों द्वारा प्रतिस्थापित किया जाता है।

उपरोक्त में से कोई भी बहु-आयामी डेटा के प्रत्येक आयाम पर लागू किया जा सकता है, लेकिन परिणाम बहु-आयामी अंतरिक्ष के घूर्णन के लिए अपरिवर्तनीय नहीं हो सकते हैं।


 * ज्यामितीय माध्यिका: नमूना बिंदुओं के एक सेट के लिए दूरियों के योग को कम करने वाला बिंदु। यह एक-आयामी डेटा पर लागू होने पर माध्यिका के समान है, लेकिन यह प्रत्येक आयाम के माध्यिका को स्वतंत्र रूप से लेने के समान नहीं है। यह अलग-अलग आयामों के अलग-अलग पुनर्विक्रय के लिए अपरिवर्तनीय नहीं है।
 * द्विघात माध्य <अवधि शैली = फ़ॉन्ट-वजन: सामान्य; >(अक्सर मूल माध्य वर्ग के रूप में जाना जाता है) : इंजीनियरिंग में उपयोगी, लेकिन अक्सर आंकड़ों में उपयोग नहीं किया जाता। ऐसा इसलिए है क्योंकि जब वितरण में ऋणात्मक मान शामिल होते हैं तो यह वितरण के केंद्र का एक अच्छा संकेतक नहीं होता है।
 * सरल गहराई: संभावना है कि दिए गए वितरण से कोने के साथ यादृच्छिक रूप से चुने गए संकेतन में दिए गए केंद्र शामिल होंगे
 * Tukey माध्यिका: संपत्ति के साथ एक बिंदु जिसमें प्रत्येक आधा स्थान होता है जिसमें कई नमूना बिंदु भी होते हैं

परिवर्तनशील समस्याओं का समाधान
केंद्रीय प्रवृत्ति के कई उपायों को भिन्नात्मक समस्या को हल करने के रूप में वर्णित किया जा सकता है, विविधताओं की कलन के अर्थ में, अर्थात् केंद्र से भिन्नता को कम करना। अर्थात्, सांख्यिकीय फैलाव का एक उपाय दिया गया है, एक केंद्रीय प्रवृत्ति का एक उपाय मांगता है जो भिन्नता को कम करता है: जैसे केंद्र के सभी विकल्पों में केंद्र से भिन्नता न्यूनतम है। एक चुटकी में, फैलाव स्थान से पहले होता है। इन उपायों को प्रारंभ में एक आयाम में परिभाषित किया गया है, लेकिन इन्हें कई आयामों में सामान्यीकृत किया जा सकता है। यह केंद्र अद्वितीय हो भी सकता है और नहीं भी। एलपी स्पेस के अर्थ में |$L^{p}$ रिक्त स्थान, पत्राचार है: संबंधित कार्यों को पी-नॉर्म कहा जाता है$L^{p}$-नॉर्म्स: क्रमशः 0-नॉर्म, 1-नॉर्म, 2-नॉर्म, और ∞-नॉर्म। के अनुरूप समारोह L0 स्थान एक मानक नहीं है, और इस प्रकार इसे अक्सर उद्धरणों में संदर्भित किया जाता है: 0-मानदंड।

समीकरणों में, दिए गए (परिमित) डेटा सेट के लिए $L^{0}$, एक सदिश के रूप में माना जाता है $L^{1}$, एक बिंदु के बारे में फैलाव $L^{2}$ से दूरी है $L^{∞}$ निरंतर वेक्टर के लिए $p$ में p-मानदंड (अंकों की संख्या से सामान्यीकृत n):


 * $$f_p(c) = \left\| \mathbf{x} - \mathbf{c} \right\|_p := \bigg( \frac{1}{n} \sum_{i=1}^n \left| x_i - c\right| ^p \bigg) ^{1/p}$$

के लिए $X$ और $\mathbf{x} = (x1,…,xn)$ इन कार्यों को क्रमशः सीमाएं लेकर परिभाषित किया गया है $\mathbf{c}$ और $\mathbf{x}$. के लिए $\mathbf{c} = (c,…,c)$ सीमित मान हैं $p = 0$ और $p = ∞$ या $p → 0$, इसलिए अंतर केवल समानता बन जाता है, इसलिए 0-मानक असमान बिंदुओं की संख्या को गिनता है। के लिए $p → ∞$ सबसे बड़ी संख्या हावी है, और इस प्रकार ∞-मानदंड अधिकतम अंतर है।

विशिष्टता
औसत (एल2 केंद्र) और मिडरेंज (L∞ केंद्र) अद्वितीय होते हैं (जब वे मौजूद होते हैं), जबकि माध्यिका (L1 केंद्र) और मोड (L0 केंद्र) सामान्य रूप से अद्वितीय नहीं हैं। इसे संबंधित कार्यों (उत्पीड़न कार्यों) के उत्तल कार्य के संदर्भ में समझा जा सकता है।

2-मानदंड और ∞-मानदंड कड़ाई से उत्तल कार्य हैं, और इस प्रकार (उत्तल अनुकूलन द्वारा) मिनिमाइज़र अद्वितीय है (यदि यह मौजूद है), और बंधे हुए वितरण के लिए मौजूद है। इस प्रकार माध्य के बारे में मानक विचलन किसी अन्य बिंदु के बारे में मानक विचलन से कम है, और मध्य श्रेणी के बारे में अधिकतम विचलन किसी अन्य बिंदु के अधिकतम विचलन से कम है।

1-मानदंड सख्ती से उत्तल नहीं है, जबकि मिनिमाइज़र की विशिष्टता सुनिश्चित करने के लिए सख्त उत्तलता की आवश्यकता है। इसके विपरीत, औसत (न्यूनतम करने के इस अर्थ में) सामान्य रूप से अद्वितीय नहीं है, और वास्तव में असतत वितरण के दो केंद्रीय बिंदुओं के बीच कोई भी बिंदु औसत पूर्ण विचलन को कम करता है।

0- मानदंड उत्तल नहीं है (इसलिए आदर्श नहीं है)। तदनुसार, बहुलक अद्वितीय नहीं है - उदाहरण के लिए, एक समान वितरण में कोई भी बिंदु बहुलक होता है।

क्लस्टरिंग
एक केंद्रीय बिंदु के बजाय, कई बिंदुओं के लिए कहा जा सकता है ताकि इन बिंदुओं से भिन्नता कम से कम हो। यह क्लस्टर विश्लेषण की ओर जाता है, जहां डेटा सेट में प्रत्येक बिंदु को निकटतम केंद्र के साथ क्लस्टर किया जाता है। आमतौर पर, 2-मानदंड का उपयोग k-means क्लस्टरिंग | k-means क्लस्टरिंग के माध्य को सामान्यीकृत करता है, जबकि 1-मानदंड का उपयोग करते हुए (ज्यामितीय) मध्यिका को k-मध्यिका क्लस्टरिंग | k-मध्यिका क्लस्टरिंग के लिए सामान्यीकृत करता है। 0-मानदंड का उपयोग केंद्र के रूप में k सबसे सामान्य मानों का उपयोग करने के लिए मोड (सबसे सामान्य मान) को सामान्य करता है।

एकल-केंद्र आँकड़ों के विपरीत, यह बहु-केंद्र क्लस्टरिंग सामान्य रूप से एक बंद-रूप अभिव्यक्ति में गणना नहीं की जा सकती है, और इसके बजाय पुनरावृत्त विधि द्वारा गणना या अनुमान लगाया जाना चाहिए; एक सामान्य दृष्टिकोण अपेक्षा-अधिकतमकरण एल्गोरिदम है।

सूचना ज्यामिति
न्यूनतम भिन्नता के रूप में एक केंद्र की धारणा को सूचना ज्यामिति में एक वितरण के रूप में सामान्यीकृत किया जा सकता है जो डेटा सेट से विचलन (सांख्यिकी) (एक सामान्यीकृत दूरी) को कम करता है। सबसे आम मामला अधिकतम संभावना अनुमान है, जहां अधिकतम संभावना अनुमान (एमएलई) संभावना को अधिकतम करता है (अपेक्षित आश्चर्य को कम करता है), जिसे भिन्नता को मापने के लिए एंट्रॉपी (सांख्यिकी) का उपयोग करके ज्यामितीय रूप से व्याख्या की जा सकती है: एमएलई क्रॉस एन्ट्रापी को कम करता है (समतुल्य, सापेक्ष एन्ट्रॉपी), कुल्बैक-लीब्लर विचलन)।

इसका एक सरल उदाहरण नाममात्र डेटा के केंद्र के लिए है: मोड (केवल एकल-मूल्यवान केंद्र) का उपयोग करने के बजाय, एक केंद्र के रूप में अक्सर अनुभवजन्य माप (नमूना आकार से विभाजित आवृत्ति वितरण) का उपयोग करता है। उदाहरण के लिए, दिए गए बाइनरी डेटा, जैसे कि हेड या टेल, यदि डेटा सेट में 2 हेड और 1 टेल होते हैं, तो मोड हेड है, लेकिन अनुभवजन्य माप 2/3 हेड, 1/3 टेल है, जो क्रॉस-को कम करता है- डेटा सेट से एंट्रॉपी (कुल आश्चर्य)। इस परिप्रेक्ष्य का उपयोग प्रतिगमन विश्लेषण में भी किया जाता है, जहां कम से कम वर्ग उस समाधान को ढूंढता है जो इससे दूरी को कम करता है, और समान रूप से रसद प्रतिगमन में, अधिकतम संभावना अनुमान आश्चर्य (सूचना दूरी) को कम करता है।

माध्य, माध्यिका और बहुलक के बीच संबंध
एकरूप वितरण के लिए निम्नलिखित सीमाएँ ज्ञात हैं और तीक्ष्ण हैं:
 * $$ \frac{| \theta - \mu |}{ \sigma } \le \sqrt{ 3 } ,$$
 * $$ \frac{| \nu - \mu |}{ \sigma } \le \sqrt{ 0.6 } ,$$
 * $$ \frac{| \theta - \nu |}{ \sigma } \le \sqrt{ 3 } ,$$

जहां μ माध्य है, ν माध्यिका है, θ मोड है, और σ मानक विचलन है।

प्रत्येक वितरण के लिए,
 * $$ \frac{| \nu - \mu |}{ \sigma } \le 1.$$

यह भी देखें

 * केंद्रीय क्षण
 * अपेक्षित मूल्य
 * स्थान पैरामीटर
 * अर्थ
 * आबादी मतलब
 * नमूना माध्य

संदर्भ
Lagemaß