मानक त्रुटि

मानक त्रुटि (एसई) एक आंकड़े का (आमतौर पर एक [[सांख्यिकीय पैरामीटर]] का अनुमान) इसके नमूनाकरण वितरण का मानक विचलन है या उस मानक विचलन का अनुमान। यदि आँकड़ा नमूना माध्य है, तो इसे माध्य (SEM) की मानक त्रुटि कहा जाता है।

माध्य का प्रतिचयन वितरण एक ही जनसंख्या से बार-बार प्रतिचयन द्वारा उत्पन्न होता है और प्रतिदर्श माध्य की रिकॉर्डिंग प्राप्त होती है। यह विभिन्न साधनों का वितरण बनाता है, और इस वितरण का अपना माध्य और विचरण होता है। गणितीय रूप से, प्राप्त नमूना माध्य वितरण का विचरण नमूना आकार द्वारा विभाजित जनसंख्या के विचरण के बराबर है। ऐसा इसलिए है क्योंकि जैसे-जैसे सैंपल का आकार बढ़ता है, सैंपल का मतलब जनसंख्या माध्य के आसपास अधिक बारीकी से क्लस्टर होता है।

इसलिए, माध्य की मानक त्रुटि और मानक विचलन के बीच संबंध ऐसा है कि, किसी दिए गए नमूने के आकार के लिए, माध्य की मानक त्रुटि नमूना आकार के वर्गमूल से विभाजित मानक विचलन के बराबर होती है। दूसरे शब्दों में, माध्य की मानक त्रुटि जनसंख्या माध्य के आसपास नमूना माध्य के फैलाव का माप है।

प्रतिगमन विश्लेषण में, शब्द मानक त्रुटि या तो घटे हुए ची-स्क्वायर आँकड़ों के वर्गमूल या किसी विशेष प्रतिगमन गुणांक के लिए मानक त्रुटि (जैसा कि, कहते हैं, विश्वास अंतराल में उपयोग किया जाता है) को संदर्भित करता है।

सटीक मूल्य
मान लीजिए कि एक सांख्यिकीय रूप से स्वतंत्र नमूना है $$n$$ टिप्पणियों $$ x_1, x_2, \ldots, x_n $$ के मानक विचलन के साथ एक सांख्यिकीय जनसंख्या से लिया जाता है $$\sigma$$. नमूने से परिकलित माध्य मान, $$\bar{x}$$, माध्य पर संबद्ध मानक त्रुटि होगी, $${\sigma}_\bar{x}$$, द्वारा दिए गए:


 * $${\sigma}_\bar{x}\ = \frac{\sigma}{\sqrt{n}}$$.

व्यावहारिक रूप से यह हमें बताता है कि कारक के कारण जनसंख्या माध्य के मूल्य का अनुमान लगाने का प्रयास करते समय $$1/\sqrt{n}$$, अनुमान पर त्रुटि को दो के कारक से कम करने के लिए नमूने में चार गुना अधिक अवलोकन प्राप्त करने की आवश्यकता होती है; इसे दस के कारक से कम करने के लिए सौ गुना अधिक अवलोकन की आवश्यकता होती है।

अनुमान
मानक विचलन $$\sigma$$ नमूना ली जा रही जनसंख्या का शायद ही कभी पता चलता है। इसलिए, माध्य की मानक त्रुटि को आमतौर पर प्रतिस्थापित करके अनुमानित किया जाता है $$\sigma$$ मानक विचलन के साथ # सही नमूना मानक विचलन $$\sigma_{x}$$ बजाय:


 * $${\sigma}_\bar{x}\ \approx \frac{\sigma_{x}}{\sqrt{n}}$$.

चूंकि यह वास्तविक मानक त्रुटि के लिए केवल एक अनुमानक है, यहां अन्य अंकन देखना आम है जैसे:


 * $$\widehat{\sigma}_{\bar{x}} \approx \frac{\sigma_{x}}{\sqrt{n}}$$     या वैकल्पिक रूप से      $${s}_\bar{x}\ \approx \frac{s}{\sqrt{n}}$$.

भ्रम का एक सामान्य स्रोत तब होता है जब स्पष्ट रूप से अंतर करने में विफल रहता है:


 * जनसंख्या का मानक विचलन ($$\sigma$$),
 * नमूने का मानक विचलन ($$\sigma_{x}$$),
 * माध्य का मानक विचलन ($$\sigma_{\bar{x}}$$, जो मानक त्रुटि है), और
 * माध्य के मानक विचलन का अनुमानक ($$\widehat{\sigma}_{\bar{x}}$$, जो सबसे अधिक बार गणना की जाने वाली मात्रा है, और इसे अक्सर बोलचाल की भाषा में मानक त्रुटि भी कहा जाता है)।

अनुमानक की शुद्धता
जब नमूना आकार छोटा होता है, तो जनसंख्या के वास्तविक मानक विचलन के बजाय नमूने के मानक विचलन का उपयोग करने से जनसंख्या मानक विचलन को व्यवस्थित रूप से कम करके आंका जाएगा, और इसलिए मानक त्रुटि भी। N = 2 के साथ, अवमूल्यन लगभग 25% है, लेकिन n = 6 के लिए, अवमूल्यन केवल 5% है। गुरलैंड और त्रिपाठी (1971) इस आशय के लिए एक सुधार और समीकरण प्रदान करते हैं। सोकाल और रोहल्फ़ (1981) n <20 के छोटे नमूनों के लिए सुधार कारक का एक समीकरण देते हैं। आगे की चर्चा के लिए मानक विचलन का निष्पक्ष अनुमान देखें।

व्युत्पत्ति
माध्य पर मानक त्रुटि स्वतंत्र यादृच्छिक चर के योग के विचरण से प्राप्त की जा सकती है, प्रसरण#प्रसरण की परिभाषा और उसके कुछ सरल प्रसरण#गुण दिए गए हैं। अगर $$ x_1, x_2, \ldots, x_n $$ हैं $$n$$ माध्य के साथ जनसंख्या से स्वतंत्र नमूने $$ \bar{x} $$ और मानक विचलन $$ \sigma $$, तो हम कुल परिभाषित कर सकते हैं


 * $$ T = (x_1 + x_2 + \cdots + x_n) $$

जो प्रसरण के कारण#असंबद्ध चरों का योग (Bienaymé सूत्र)|Bienaymé सूत्र, में विचरण होगा


 * $$ \operatorname{Var}(T) \approx \big(\operatorname{Var}(x_1) + \operatorname{Var}(x_2) + \cdots + \operatorname{Var}(x_n)\big) = n\sigma^2. $$

जहां हमने जनसंख्या के मानक विचलन के लिए सर्वोत्तम मूल्य के साथ माप के मानक विचलन, यानी अनिश्चितताओं का अनुमान लगाया है। इन मापों का माध्य $$\bar{x}$$ द्वारा ही दिया जाता है


 * $$\bar{x} = T/n $$.

माध्य का विचरण तब है


 * $$\operatorname{Var}(\bar{x}) = \operatorname{Var}\left(\frac{T}{n}\right) = \frac{1}{n^2}\operatorname{Var}(T) = \frac{1}{n^2}n\sigma^2 = \frac{\sigma^2}{n}.$$

मानक त्रुटि, परिभाषा के अनुसार, का मानक विचलन है $$\bar{x}$$ जो केवल विचरण का वर्गमूल है:


 * $$\sigma_{\bar{x}} = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}} $$.

सहसंबद्ध यादृच्छिक चर के लिए मार्कोव श्रृंखला केंद्रीय सीमा प्रमेय के अनुसार नमूना भिन्नता की गणना की जानी चाहिए।

यादृच्छिक नमूना आकार
के साथ स्वतंत्र और समान रूप से वितरित यादृच्छिक चर ऐसे मामले होते हैं जब एक नमूना पहले से जाने बिना लिया जाता है कि कितने अवलोकन किसी मानदंड के अनुसार स्वीकार्य होंगे। ऐसे मामलों में, नमूना आकार $$N$$ एक यादृच्छिक चर है जिसकी भिन्नता की भिन्नता में जुड़ जाती है $$X$$ ऐसा है कि,
 * $$\operatorname{Var}(T) = \operatorname{E}(N)\operatorname{Var}(X) + \operatorname{Var}(N)\big(\operatorname{E}(X)\big)^2$$

अगर $$N$$ एक पॉसॉन वितरण है, फिर $$\operatorname{E}(N)= \operatorname{Var}(N)$$ अनुमानक के साथ $$N = n$$. इसलिए का अनुमानक $$\operatorname{Var}(T)$$ बन जाता है $$nS^2_X + n\bar{X}^2$$, मानक त्रुटि के लिए निम्नलिखित सूत्र का नेतृत्व करते हैं:
 * $$\operatorname{Standard~Error}(\bar{X})= \sqrt{\frac{S^2_X + \bar{X}^2}{n}}$$ (चूँकि मानक विचलन प्रसरण का वर्गमूल है)

छात्र सन्निकटन जब σ मान अज्ञात है
कई व्यावहारिक अनुप्रयोगों में, σ का सही मान अज्ञात है। नतीजतन, हमें एक वितरण का उपयोग करने की आवश्यकता है जो खाते में संभावित σ के फैलाव को ध्यान में रखता है। जब सही अंतर्निहित वितरण गॉसियन के रूप में जाना जाता है, हालांकि अज्ञात σ के साथ, तब परिणामी अनुमानित वितरण छात्र टी-वितरण का अनुसरण करता है। मानक त्रुटि छात्र t-वितरण का मानक विचलन है। टी-वितरण गॉसियन से थोड़ा अलग हैं, और नमूने के आकार के आधार पर भिन्न होते हैं। छोटे नमूने कुछ हद तक जनसंख्या मानक विचलन को कम आंकने की संभावना रखते हैं और इसका एक मतलब है जो वास्तविक जनसंख्या माध्य से भिन्न होता है, और गॉसियन की तुलना में कुछ भारी पूंछ के साथ इन घटनाओं की संभावना के लिए छात्र टी-वितरण खाता है। छात्र टी-वितरण की मानक त्रुटि का अनुमान लगाने के लिए σ के बजाय नमूना मानक विचलन s का उपयोग करना पर्याप्त है, और हम विश्वास अंतराल की गणना करने के लिए इस मान का उपयोग कर सकते हैं।

नोट: विद्यार्थी का t-वितरण|छात्र का प्रायिकता बंटन गाऊसी वितरण द्वारा अच्छी तरह से अनुमानित होता है जब नमूना आकार 100 से अधिक होता है। ऐसे नमूनों के लिए बाद वाले वितरण का उपयोग किया जा सकता है, जो बहुत सरल है।

धारणाएं और उपयोग
कैसे का एक उदाहरण $$\operatorname{SE}$$ अज्ञात जनसंख्या माध्य के विश्वास अंतराल बनाने के लिए प्रयोग किया जाता है। यदि नमूना वितरण सामान्य वितरण है, तो नमूना माध्य, मानक त्रुटि, और सामान्य वितरण की मात्राओं का उपयोग सही जनसंख्या माध्य के लिए विश्वास अंतराल की गणना के लिए किया जा सकता है। निम्नलिखित अभिव्यक्तियों का उपयोग ऊपरी और निचली 95% विश्वास सीमा की गणना करने के लिए किया जा सकता है, जहाँ $$\bar{x}$$ नमूना माध्य के बराबर है, $$\operatorname{SE}$$ नमूना माध्य के लिए मानक त्रुटि के बराबर है, और 1.96 सामान्य वितरण के 97.5 प्रतिशतक बिंदु का अनुमानित मान है:


 * ऊपरी 95% सीमा $$= \bar{x} + (\operatorname{SE}\times 1.96) ,$$ और
 * 95% की सीमा कम करें $$= \bar{x} - (\operatorname{SE}\times 1.96) .$$

विशेष रूप से, एक नमूना आँकड़ा (जैसे नमूना माध्य) की मानक त्रुटि उस प्रक्रिया में नमूना माध्य का वास्तविक या अनुमानित मानक विचलन है जिसके द्वारा इसे उत्पन्न किया गया था। दूसरे शब्दों में, यह प्रतिदर्श आँकड़ों के प्रतिचयन वितरण का वास्तविक या अनुमानित मानक विचलन है। मानक त्रुटि के लिए अंकन SE, SEM (माप या माध्य की मानक त्रुटि के लिए), या S में से कोई एक हो सकता हैE.

मानक त्रुटियाँ एक मूल्य में अनिश्चितता के सरल उपाय प्रदान करती हैं और अक्सर इसका उपयोग किया जाता है क्योंकि:
 * कई मामलों में, यदि कई अलग-अलग मात्राओं की मानक त्रुटि ज्ञात है, तो मात्राओं के कुछ फ़ंक्शन (गणित) की मानक त्रुटि की आसानी से गणना की जा सकती है;
 * जब मूल्य का संभाव्यता वितरण ज्ञात हो, तो इसका उपयोग सटीक विश्वास अंतराल की गणना के लिए किया जा सकता है;
 * जब प्रायिकता वितरण अज्ञात हो, तो चेबीशेव की असमानता या वायसोचान्स्की-पेटुनिन असमानता | वैसोचान्स्की-पेटुनिन असमानताओं का उपयोग रूढ़िवादी विश्वास अंतराल की गणना के लिए किया जा सकता है; और
 * जैसा कि नमूना आकार अनंत की ओर जाता है, केंद्रीय सीमा प्रमेय गारंटी देता है कि माध्य का नमूना वितरण असमान रूप से सामान्य वितरण है।

माध्य बनाम मानक विचलन की मानक त्रुटि
वैज्ञानिक और तकनीकी साहित्य में, प्रयोगात्मक डेटा को अक्सर या तो नमूना डेटा के माध्य और मानक विचलन या मानक त्रुटि के साथ माध्य का उपयोग करके संक्षेपित किया जाता है। यह अक्सर उनके विनिमेयता के बारे में भ्रम पैदा करता है। हालाँकि, माध्य और मानक विचलन वर्णनात्मक आँकड़े हैं, जबकि माध्य की मानक त्रुटि यादृच्छिक नमूनाकरण प्रक्रिया का वर्णनात्मक है। नमूना डेटा का मानक विचलन माप में भिन्नता का विवरण है, जबकि माध्य की मानक त्रुटि एक संभाव्य कथन है कि कैसे नमूना आकार केंद्रीय सीमा के आलोक में जनसंख्या माध्य के अनुमानों पर बेहतर सीमा प्रदान करेगा। प्रमेय। सीधे शब्दों में कहें, नमूना माध्य की मानक त्रुटि इस बात का अनुमान है कि जनसंख्या माध्य से नमूना माध्य कितनी दूर होने की संभावना है, जबकि नमूने का मानक विचलन वह डिग्री है जो नमूने के भीतर के व्यक्ति नमूना माध्य से भिन्न होते हैं। यदि जनसंख्या मानक विचलन परिमित है, तो नमूने के माध्य की मानक त्रुटि बढ़ते नमूने के आकार के साथ शून्य हो जाएगी, क्योंकि जनसंख्या के अनुमान में सुधार होगा, जबकि नमूने का मानक विचलन जनसंख्या मानक का अनुमान लगाएगा नमूना आकार बढ़ने पर विचलन।

परिमित जनसंख्या सुधार (एफपीसी)
मानक त्रुटि के लिए ऊपर दिया गया सूत्र मानता है कि जनसंख्या अनंत है। फिर भी, यह अक्सर परिमित आबादी के लिए उपयोग किया जाता है, जब लोग उस प्रक्रिया को मापने में रुचि रखते हैं जो मौजूदा परिमित आबादी का निर्माण करती है (इसे एक विश्लेषणात्मक और गणनात्मक सांख्यिकीय अध्ययन कहा जाता है)। हालांकि उपरोक्त सूत्र बिल्कुल सही नहीं है जब जनसंख्या परिमित है, परिमित- और अनंत-जनसंख्या संस्करणों के बीच का अंतर छोटा होगा जब नमूना अंश छोटा होगा (उदाहरण के लिए परिमित जनसंख्या का एक छोटा अनुपात अध्ययन किया जाता है)। इस मामले में लोग अक्सर परिमित जनसंख्या के लिए सही नहीं होते हैं, अनिवार्य रूप से इसे लगभग अनंत जनसंख्या के रूप में मानते हैं।

यदि कोई मौजूदा परिमित जनसंख्या को मापने में रुचि रखता है जो समय के साथ नहीं बदलेगा, तो जनसंख्या के आकार के लिए समायोजित करना आवश्यक है (जिसे विश्लेषणात्मक और गणनात्मक सांख्यिकीय अध्ययन कहा जाता है)। जब एक विश्लेषणात्मक और गणनात्मक सांख्यिकीय अध्ययन में नमूना अंश (अक्सर एफ कहा जाता है) बड़ा (लगभग 5% या अधिक) होता है, तो मानक त्रुटि का अनुमान परिमित जनसंख्या सुधार से गुणा करके ठीक किया जाना चाहिए।  (उर्फ: 'FPC'):

\operatorname{FPC} = \sqrt{\frac{N-n}{N-1}} $$ जो, बड़े एन के लिए:



\operatorname{FPC} \approx \sqrt{1-\frac{n}{N}} = \sqrt{1-f} $$ आबादी के एक बड़े प्रतिशत के करीब नमूने लेने से प्राप्त अतिरिक्त सटीकता के लिए खाता। FPC का प्रभाव यह है कि त्रुटि शून्य हो जाती है जब नमूना आकार n जनसंख्या आकार N के बराबर होता है।

यह सर्वेक्षण पद्धति में तब होता है जब नमूना नमूनाकरण (सांख्यिकी)#चयनित इकाइयों का प्रतिस्थापन। यदि प्रतिस्थापन के साथ नमूना लिया जाता है, तो एफपीसी काम में नहीं आता है।

नमूने में सहसंबंध के लिए सुधार
यदि मापी गई मात्रा A के मान सांख्यिकीय रूप से स्वतंत्र नहीं हैं, लेकिन पैरामीटर स्पेस 'x' में ज्ञात स्थानों से प्राप्त किए गए हैं, तो माध्य की वास्तविक मानक त्रुटि का एक निष्पक्ष अनुमान (वास्तव में मानक विचलन भाग पर एक सुधार) द्वारा प्राप्त किया जा सकता है नमूने की गणना की गई मानक त्रुटि को कारक f से गुणा करना:


 * $$f= \sqrt{\frac{1+\rho}{1-\rho}} ,$$

जहां नमूना पूर्वाग्रह गुणांक ρ व्यापक रूप से इस्तेमाल किया जाने वाला प्रैस-विन्स्टन अनुमान है। यह अनुमानित सूत्र मध्यम से बड़े नमूना आकार के लिए है; संदर्भ किसी भी नमूना आकार के लिए सटीक सूत्र देता है, और इसे वॉल स्ट्रीट स्टॉक कोट्स जैसी भारी स्वतः सहसंबद्ध समय श्रृंखला पर लागू किया जा सकता है। इसके अलावा, यह सूत्र सकारात्मक और नकारात्मक ρ के लिए समान रूप से काम करता है। अधिक चर्चा के लिए मानक विचलन का निष्पक्ष अनुमान भी देखें। <!- जब यह अधिक अर्थपूर्ण हो तो टिप्पणी हटा दें

यह भी देखें

 * केंद्रीय सीमा प्रमेय का चित्रण
 * त्रुटि के मार्जिन
 * संभावित त्रुटि
 * भारित माध्य की मानक त्रुटि
 * नमूना माध्य और नमूना सहप्रसरण
 * माध्यिका की मानक त्रुटि
 * विचरण
 * माध्य और पूर्वानुमानित प्रतिक्रियाओं का प्रसरण