केंद्रीय प्रवृत्ति

आँकड़ों में, केंद्रीय प्रवृत्ति (या केंद्रीय प्रवृत्ति का माप) संभाव्यता वितरण के लिए केंद्रीय या विशिष्ट मूल्य है। बोलचाल की भाषा में, केंद्रीय प्रवृत्ति के उपायों को अधिकांशतः औसत कहा जाता है। केंद्रीय प्रवृत्ति शब्द 1920 के दशक के उत्तरार्ध से आता है। केंद्रीय प्रवृत्ति के सबसे सामान्य उपाय अंकगणितीय माध्य, माध्यिका और मोड (सांख्यिकी) हैं। मध्य प्रवृत्ति की गणना या तो मूल्यों के परिमित सममुच्य के लिए या सैद्धांतिक वितरण के लिए की जा सकती है, जैसे कि सामान्य वितरण कभी-कभी लेखक कुछ केंद्रीय मूल्य के आसपास क्लस्टर करने के लिए मात्रात्मक डेटा की प्रवृत्ति को निरूपित करने के लिए केंद्रीय प्रवृत्ति का उपयोग करते हैं।

वितरण की केंद्रीय प्रवृत्ति सामान्यतः इसके सांख्यिकीय फैलाव या परिवर्तनशीलता के विपरीत होती है; फैलाव और केंद्रीय प्रवृत्ति वितरण के अधिकांशतः विशेषता गुण होते हैं। विश्लेषण यह निर्धारित कर सकता है कि डेटा के फैलाव के आधार पर मजबूत या कमजोर केंद्रीय प्रवृत्ति है या नहीं।

उपाय
निम्नलिखित को एक-आयामी डेटा पर प्रयुक्त किया जा सकता है। परिस्थितियों के आधार पर, केंद्रीय प्रवृत्ति की गणना करने से पहले डेटा को बदलना उचित हो सकता है। उदाहरण मानों का वर्ग कर रहे हैं या लघुगणक ले रहे हैं। क्या एक परिवर्तन उचित है और यह क्या होना चाहिए, विश्लेषण किए जा रहे डेटा पर बहुत अधिक निर्भर करता है।


 * अंकगणितीय माध्य या केवल, माध्य: डेटा सममुच्य में अवलोकनों की संख्या से विभाजित सभी मापों का योग है।
 * माध्यिका: मध्य मान जो डेटा सममुच्य के निचले आधे भागों से उच्च आधे को अलग करता है। मध्यिका और मोड केंद्रीय प्रवृत्ति के एकमात्र उपाय हैं जिनका उपयोग माप के स्तर ऑर्डिनल पैमाने के लिए किया जा सकता है, जिसमें मूल्यों को एक दूसरे के सापेक्ष पद दिया जाता है लेकिन बिल्कुल नहीं मापा जाता है।
 * मोड : डेटा सममुच्य में सबसे लगातार मूल्य यह एकमात्र केंद्रीय प्रवृत्ति माप है जिसका उपयोग माप के स्तर नाममात्र स्तर के साथ किया जा सकता है, जिसमें विशुद्ध रूप से गुणात्मक श्रेणी असाइनमेंट होते हैं।
 * सामान्यीकृत माध्य: पायथागॉरियन माध्य का सामान्यीकरण, प्रतिपादक द्वारा निर्दिष्ट होता है।
 * ज्यामितीय माध्य: डेटा मानों के गुणनफल का Nवां मूल, जहां इनमें से n हैं। यह माप केवल उन डेटा के लिए मान्य है जिन्हें पूरी तरह से सकारात्मक पैमाने पर मापा जाता है।
 * अनुकूल माध्य: डेटा मानों के व्युत्क्रम के अंकगणितीय माध्य का गुणनात्मक व्युत्क्रम यह उपाय भी केवल उन डेटा के लिए मान्य है जिन्हें पूरी तरह से सकारात्मक पैमाने पर मापा जाता है।
 * भारित अंकगणितीय माध्य: अंकगणितीय माध्य जिसमें कुछ डेटा तत्वों का भार सम्मिलित होता है।
 * काटे गए माध्य या छंटे हुए माध्य : यह निश्चित स ंख्या या उच्चतम और निम्नतम डेटा मानों के अनुपात के बाद डेटा मानों का अंकगणितीय माध्य हटा दिया गया है।
 * [अंतरचतुर्थक माध्य]: अन्तःचतुर्थक श्रेणी के अन्दर डेटा के आधार पर छोटा अर्थ है।
 * मध्य स्तर: डेटा सममुच्य के अधिकतम और न्यूनतम मूल्यों का अंकगणितीय माध्य है।
 * अनुसरण: पहले और तीसरे चतुर्थक का अंकगणितीय माध्य है।
 * अर्ध-अंकगणितीय माध्य: सामान्यीकृत माध्य का सामान्यीकरण, सतत फलन इंजेक्टिव फलन (गणित) द्वारा निर्दिष्ट होता है।
 * ट्रिमियन: माध्यिका और दो चतुर्थक का भारित अंकगणितीय माध्य है।
 * विनसोराइज्ड माध्य: अंकगणितीय माध्य जिसमें ग़ैर को माध्यिका के निकट के मानों द्वारा प्रतिस्थापित किया जाता है।

उपरोक्त में से कोई भी बहु-आयामी डेटा के प्रत्येक आयाम पर प्रयुक्त किया जा सकता है, लेकिन परिणाम बहु-आयामी अंतरिक्ष के घूर्णन के लिए अपरिवर्तनीय नहीं हो सकते हैं।


 * ज्यामितीय माध्यिका: नमूना बिंदुओं के सममुच्य के लिए दूरियों के योग को कम करने वाला बिंदु यह -आयामी डेटा पर प्रयुक्त होने पर माध्यिका के समान है, लेकिन यह प्रत्येक आयाम के माध्यिका को स्वतंत्र रूप से लेने के समान नहीं है। यह अलग-अलग आयामों के अलग-अलग पुनर्विक्रय के लिए अपरिवर्तनीय नहीं है।
 * द्विघात माध्य (अधिकांशतः मूल माध्य वर्ग के रूप में जाना जाता है): इंजीनियरिंग में उपयोगी, लेकिन अधिकांशतः आंकड़ों में उपयो ग नहीं किया जाता। ऐसा इसलिए है क्योंकि जब वितरण में ऋणात्मक मान सम्मिलित होते हैं तो यह वितरण के केंद्र का अच्छा संकेतक नहीं होता है।
 * सरल गहराई: संभावना है कि दिए गए वितरण से कोने के साथ यादृच्छिक रूप से चुने गए संकेतन में दिए गए केंद्र सम्मिलित होंगे।
 * तुकी माध्यिका: संपत्ति के साथ बिंदु जिसमें प्रत्येक आधा स्थान होता है जिसमें कई नमूना बिंदु भी होते हैं।

परिवर्तनशील समस्याओं का समाधान
केंद्रीय प्रवृत्ति के कई उपायों को भिन्नात्मक समस्या को हल करने के रूप में वर्णित किया जा सकता है, विविधताओं की कलन के अर्थ में, अर्थात् केंद्र से भिन्नता को कम करना अर्थात्, सांख्यिकीय फैलाव का उपाय दिया गया है, केंद्रीय प्रवृत्ति का उपाय मांगता है जो भिन्नता को कम करता है: जैसे केंद्र के सभी विकल्पों में केंद्र से भिन्नता न्यूनतम है। चुटकी में, फैलाव स्थान से पहले होता है। इन उपायों को प्रारंभ में आयाम में परिभाषित किया गया है, लेकिन इन्हें कई आयामों में सामान्यीकृत किया जा सकता है। यह केंद्र अद्वितीय हो भी सकता है और नहीं भी। $L^{p}$ स्पेस के अर्थ में रिक्त स्थान, पत्राचार है। संबंधित कार्यों को p-नॉर्म कहा जाता है $L^{p}$-नॉर्म्स: क्रमशः 0-नॉर्म, 1-नॉर्म, 2-नॉर्म, और ∞-नॉर्म। के अनुरूप समारोह L0 स्थान एक मानक नहीं है, और इस प्रकार इसे अधिकांशतः उद्धरणों में संदर्भित किया जाता है: 0-मानदंड समीकरणों में, दिए गए (परिमित) डेटा सममुच्य के लिए $L^{0}$, सदिश के रूप में माना जाता है $L^{1}$ बिंदु के बारे में फैलाव $L^{2}$ से दूरी है $L^{∞}$ निरंतर वेक्टर के लिए $p$ में p-मानदंड (अंकों की संख्या से सामान्यीकृत n) है।


 * $$f_p(c) = \left\| \mathbf{x} - \mathbf{c} \right\|_p := \bigg( \frac{1}{n} \sum_{i=1}^n \left| x_i - c\right| ^p \bigg) ^{1/p}$$

के लिए $X$ और $\mathbf{x} = (x1,…,xn)$ इन कार्यों को क्रमशः सीमाएं लेकर परिभाषित किया गया है $\mathbf{c}$ और $\mathbf{x}$. के लिए $\mathbf{c} = (c,…,c)$ सीमित मान हैं $p = 0$ और $p = ∞$ या $p → 0$, इसलिए अंतर केवल समानता बन जाता है, इसलिए 0-मानक असमान बिंदुओं की संख्या को गिनता है। के लिए $p → ∞$ सबसे बड़ी संख्या हावी है, और इस प्रकार ∞-मानदंड अधिकतम अंतर है।

विशिष्टता
औसत (L2 केंद्र) और मध्यम श्रेणी (L∞ केंद्र) अद्वितीय होते हैं (जब वे उपस्थित होते हैं), जबकि माध्यिका (L1 केंद्र) और मोड (L0 केंद्र) सामान्य रूप से अद्वितीय नहीं हैं। इसे संबंधित कार्यों (उत्पीड़न कार्यों) के उत्तल कार्य के संदर्भ में समझा जा सकता है।

2-मानदंड और ∞-मानदंड कड़ाई से उत्तल कार्य हैं, और इस प्रकार (उत्तल अनुकूलन द्वारा) न्यूनतम अद्वितीय है (यदि यह उपस्थित है), और बंधे हुए वितरण के लिए उपस्थित है। इस प्रकार माध्य के बारे में मानक विचलन किसी अन्य बिंदु के बारे में मानक विचलन से कम है, और मध्य श्रेणी के बारे में अधिकतम विचलन किसी अन्य बिंदु के अधिकतम विचलन से कम है।

1-मानदंड सख्ती से उत्तल नहीं है, जबकि न्यूनतम की विशिष्टता सुनिश्चित करने के लिए सख्त उत्तलता की आवश्यकता है। इसके विपरीत, औसत (न्यूनतम करने के इस अर्थ में) सामान्य रूप से अद्वितीय नहीं है, और वास्तव में असतत वितरण के दो केंद्रीय बिंदुओं के बीच कोई भी बिंदु औसत पूर्ण विचलन को कम करता है।

0- मानदंड उत्तल नहीं है (इसलिए आदर्श नहीं है)। तदनुसार, बहुलक अद्वितीय नहीं है - उदाहरण के लिए, समान वितरण में कोई भी बिंदु बहुलक होता है।

क्लस्टरिंग
केंद्रीय बिंदु के अतिरिक्त, कई बिंदुओं के लिए कहा जा सकता है यद्यपि इन बिंदुओं से भिन्नता कम से कम हो यह क्लस्टर विश्लेषण की ओर जाता है, जहां डेटा सममुच्य में प्रत्येक बिंदु को निकटतम केंद्र के साथ क्लस्टर किया जाता है। सामान्यतः, 2-मानदंड का उपयोग k- का अर्थ क्लस्टरिंग के माध्य को सामान्यीकृत करता है, जबकि 1-मानदंड का उपयोग करते हुए (ज्यामितीय) मध्यिका को k-मध्यिका क्लस्टरिंग k-मध्यिका क्लस्टरिंग के लिए सामान्यीकृत करता है। 0-मानदंड का उपयोग केंद्र के रूप में k सबसे सामान्य मानों का उपयोग करने के लिए मोड (सबसे सामान्य मान) को सामान्य करता है।

एकल-केंद्र आँकड़ों के विपरीत, यह बहु-केंद्र क्लस्टरिंग सामान्य रूप से बंद-रूप अभिव्यक्ति में गणना नहीं की जा सकती है, और इसके अतिरिक्त पुनरावृत्त विधि द्वारा गणना या अनुमान लगाया जाना चाहिए; सामान्य दृष्टिकोण अपेक्षा-अधिकतमकरण प्रारूप है।

सूचना ज्यामिति
न्यूनतम भिन्नता के रूप में केंद्र की धारणा को सूचना ज्यामिति में वितरण के रूप में सामान्यीकृत किया जा सकता है जो डेटा सममुच्य से विचलन (सांख्यिकी) (सामान्यीकृत दूरी) को कम करता है। सबसे सामान्य स्थितियां अधिकतम संभावना अनुमान है, जहां अधिकतम संभावना अनुमान (MLE) संभावना को अधिकतम करता है (अपेक्षित आश्चर्य को कम करता है), जिसे भिन्नता को मापने के लिए एंट्रॉपी (सांख्यिकी) का उपयोग करके ज्यामितीय रूप से व्याख्या की जा सकती है MLE क्रॉस एन्ट्रापी को कम करता है (समतुल्य,सापेक्ष एन्ट्रॉपी), कुल्बैक-लीब्लर विचलन है।

इसका सरल उदाहरण नाममात्र डेटा के केंद्र के लिए है: मोड (केवल एकल-मूल्यवान केंद्र) का उपयोग करने के अतिरिक्त, केंद्र के रूप में अधिकांशतः अनुभवजन्य माप (नमूना आकार से विभाजित आवृत्ति वितरण) का उपयोग करता है। उदाहरण के लिए, दिए गए बाइनरी डेटा, जैसे कि हेड या टेल, यदि डेटा सममुच्य में 2 हेड और 1 टेल होते हैं, तो मोड हेड है, लेकिन अनुभवजन्य माप 2/3 हेड, 1/3 टेल है, जो क्रॉस-को कम करता है- डेटा सममुच्य से एंट्रॉपी (कुल आश्चर्य)। इस परिप्रेक्ष्य का उपयोग प्रतिगमन विश्लेषण में भी किया जाता है, जहां कम से कम वर्ग उस समाधान को ढूंढता है जो इससे दूरी को कम करता है, और समान रूप से रसद प्रतिगमन में, अधिकतम संभावना अनुमान आश्चर्य (सूचना दूरी) को कम करता है।

माध्य, माध्यिका और बहुलक के बीच संबंध
एकरूप वितरण के लिए निम्नलिखित सीमाएँ ज्ञात और तीक्ष्ण हैं:
 * $$ \frac{| \theta - \mu |}{ \sigma } \le \sqrt{ 3 } ,$$
 * $$ \frac{| \nu - \mu |}{ \sigma } \le \sqrt{ 0.6 } ,$$
 * $$ \frac{| \theta - \nu |}{ \sigma } \le \sqrt{ 3 } ,$$

जहां μ माध्य है, ν माध्यिका है, θ मोड है, और σ मानक विचलन है।

प्रत्येक वितरण के लिए,
 * $$ \frac{| \nu - \mu |}{ \sigma } \le 1.$$

यह भी देखें

 * केंद्रीय क्षण
 * अपेक्षित मूल्य
 * स्थान पैरामीटर
 * अर्थ
 * नमूना माध्य
 * नमूना माध्य

संदर्भ
Lagemaß