मानक त्रुटि



आंकड़े की मानक त्रुटि (एसई) (सामान्यतः एक सांख्यिकीय पैरामीटर का अनुमान) इसके नमूनाकरण वितरण का मानक विचलन या उस मानक विचलन का अनुमान है। यदि आँकड़ा मानक माध्य है, तो इसे माध्य (एसईएम) की मानक त्रुटि कहा जाता है।

माध्य का प्रतिचयन वितरण एक ही जनसंख्या से बार-बार प्रतिचयन द्वारा उत्पन्न होता है और प्रतिदर्श माध्य की रिकॉर्डिंग प्राप्त होती है। यह विभिन्न साधनों का वितरण बनाता है, और इस वितरण का अपना माध्य और विचरण होता है। गणितीय रूप से, प्राप्त मानक माध्य वितरण का विचरण मानक आकार द्वारा विभाजित जनसंख्या के विचरण के बराबर है। ऐसा इसलिए है क्योंकि जैसे-जैसे मानक का आकार बढ़ता है, मानक का अर्थ जनसंख्या माध्य के आसपास अधिक निकट से एकत्र होता है।

इसलिए, माध्य की मानक त्रुटि और मानक विचलन के बीच संबंध ऐसा है कि, किसी दिए गए मानक के आकार के लिए, माध्य की मानक त्रुटि मानक आकार के वर्गमूल से विभाजित मानक विचलन के बराबर होती है। दूसरे शब्दों में, माध्य की मानक त्रुटि जनसंख्या माध्य के आसपास मानक माध्य के प्रसार का माप है।

प्रतिगमन विश्लेषण में, शब्द मानक त्रुटि या तो घटे हुए ची-स्क्वायर आँकड़ों के वर्गमूल या किसी विशेष प्रतिगमन गुणांक के लिए मानक त्रुटि (जैसा कि, कहते हैं, विश्वास अंतराल में उपयोग किया जाता है) को संदर्भित करता है।

त्रुटिहीन मान
मान लीजिए कि $$n$$ प्रेक्षण $$ x_1, x_2, \ldots, x_n $$ का सांख्यिकीय रूप से स्वतंत्र मानक एक सांख्यिकीय जनसंख्या से $$\sigma$$ के मानक विचलन के साथ लिया जाता है। मानक से परिकलित माध्य मान, $$\bar{x}$$, माध्य पर संबद्ध मानक त्रुटि होगी, $${\sigma}_\bar{x}$$, द्वारा दिए गए:


 * $${\sigma}_\bar{x}\ = \frac{\sigma}{\sqrt{n}}$$.

व्यावहारिक रूप से यह हमें बताता है कि $$1/\sqrt{n}$$ के कारक के कारण जनसंख्या माध्य के मान का अनुमान लगाने का प्रयास करते समय, अनुमान पर त्रुटि को दो के कारक से कम करने के लिए मानक में चार गुना अधिक अवलोकन प्राप्त करने की आवश्यकता होती है; इसे दस के कारक से कम करने के लिए सौ गुना अधिक अवलोकन की आवश्यकता होती है।

अनुमान
प्रतिदर्शित की जा रही जनसंख्या का मानक विचलन सिग्मा संभवतः ही कभी जाना जाता है। इसलिए, माध्य की मानक त्रुटि को सामान्यतः $$\sigma$$ को नमूना मानक विचलन $$\sigma_{x}$$ के अतिरिक्त प्रतिस्थापित करके अनुमानित किया जाता है:


 * $${\sigma}_\bar{x}\ \approx \frac{\sigma_{x}}{\sqrt{n}}$$.

चूंकि यह वास्तविक मानक त्रुटि के लिए केवल अनुमानक है, यहां अन्य अंकन देखना सामान्य है जैसे:


 * $$\widehat{\sigma}_{\bar{x}} \approx \frac{\sigma_{x}}{\sqrt{n}}$$     या वैकल्पिक रूप से      $${s}_\bar{x}\ \approx \frac{s}{\sqrt{n}}$$.

भ्रम का सामान्य स्रोत तब होता है जब स्पष्ट रूप से अंतर करने में विफल रहता है:


 * जनसंख्या का मानक विचलन ($$\sigma$$),
 * मानक का मानक विचलन ($$\sigma_{x}$$),
 * माध्य का मानक विचलन ($$\sigma_{\bar{x}}$$, जो मानक त्रुटि है), और
 * माध्य के मानक विचलन का अनुमानक ($$\widehat{\sigma}_{\bar{x}}$$, जो सबसे अधिक बार गणना की जाने वाली मात्रा है, और इसे अधिकांश बोलचाल की भाषा में मानक त्रुटि भी कहा जाता है)।

अनुमानक की शुद्धता
जब मानक आकार छोटा होता है, तो जनसंख्या के वास्तविक मानक विचलन के अतिरिक्त मानक के मानक विचलन का उपयोग करने से जनसंख्या मानक विचलन को व्यवस्थित रूप से कम करके आंका जाएगा, और इसलिए मानक त्रुटि भी होती है। N = 2 के साथ, अवमूल्यन लगभग 25% है, लेकिन n = 6 के लिए, अवमूल्यन केवल 5% है। गुरलैंड और त्रिपाठी (1971) इस आशय के लिए एक सुधार और समीकरण प्रदान करते हैं। सोकाल और रोहल्फ़ (1981) n <20 के छोटे मानकों के लिए सुधार कारक का समीकरण देते हैं। आगे की चर्चा के लिए मानक विचलन का निष्पक्ष अनुमान देखें।

व्युत्पत्ति
माध्य पर मानक त्रुटि स्वतंत्र यादृच्छिक चर के योग के विचरण से प्राप्त की जा सकती है, प्रसरण की परिभाषा और उसके कुछ सरल प्रसरण गुण दिए गए हैं। यदि $$ x_1, x_2, \ldots, x_n $$ माध्य $$ \bar{x} $$ और मानक विचलन $$ \sigma $$ वाली जनसंख्या से $$n$$ स्वतंत्र मानक हैं, तो हम कुल को परिभाषित कर सकते हैं


 * $$ T = (x_1 + x_2 + \cdots + x_n) $$

जो बिएनाइमे सूत्र के कारण विचरण करेगा


 * $$ \operatorname{Var}(T) \approx \big(\operatorname{Var}(x_1) + \operatorname{Var}(x_2) + \cdots + \operatorname{Var}(x_n)\big) = n\sigma^2. $$

जहां हमने जनसंख्या के मानक विचलन के लिए सर्वोत्तम मान के साथ माप के मानक विचलन, अर्थात् अनिश्चितताओं का अनुमान लगाया है। इन मापों का माध्य $$\bar{x}$$ द्वारा ही दिया जाता है


 * $$\bar{x} = T/n $$.

माध्य का विचरण तब है


 * $$\operatorname{Var}(\bar{x}) = \operatorname{Var}\left(\frac{T}{n}\right) = \frac{1}{n^2}\operatorname{Var}(T) = \frac{1}{n^2}n\sigma^2 = \frac{\sigma^2}{n}.$$

मानक त्रुटि, परिभाषा के अनुसार, $$\bar{x}$$ का मानक विचलन है जो केवल विचरण का वर्गमूल है:


 * $$\sigma_{\bar{x}} = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}} $$.

सहसंबद्ध यादृच्छिक चर के लिए मार्कोव श्रृंखला केंद्रीय सीमा प्रमेय के अनुसार मानक भिन्नता की गणना की जानी चाहिए।

यादृच्छिक मानक आकार के साथ स्वतंत्र और समान रूप से वितरित यादृच्छिक चर

ऐसे स्थिति होते हैं जब मानक पहले से जाने बिना लिया जाता है कि कितने अवलोकन किसी मानदंड के अनुसार स्वीकार्य होंगे। ऐसी स्थितियों में, मानक आकार $$N$$ यादृच्छिक चर है जिसकी भिन्नता $$X$$ की भिन्नता में जुड़ जाती है जैसे कि,
 * $$\operatorname{Var}(T) = \operatorname{E}(N)\operatorname{Var}(X) + \operatorname{Var}(N)\big(\operatorname{E}(X)\big)^2$$

यदि $$N$$ पॉसॉन वितरण है, फिर $$\operatorname{E}(N)= \operatorname{Var}(N)$$ अनुमानक के साथ $$N = n$$. इसलिए का अनुमानक $$\operatorname{Var}(T)$$ बन जाता है $$nS^2_X + n\bar{X}^2$$, मानक त्रुटि के लिए निम्नलिखित सूत्र का नेतृत्व करते हैं:
 * $$\operatorname{Standard~Error}(\bar{X})= \sqrt{\frac{S^2_X + \bar{X}^2}{n}}$$ (चूँकि मानक विचलन प्रसरण का वर्गमूल है)

छात्र सन्निकटन जब σ मान अज्ञात है
कई व्यावहारिक अनुप्रयोगों में, σ का सही मान अज्ञात है। परिणामस्वरूप, हमें वितरण का उपयोग करने की आवश्यकता है जो खाते में संभावित σ के प्रसार को ध्यान में रखता है। जब सही अंतर्निहित वितरण गॉसियन के रूप में जाना जाता है, चूंकि अज्ञात σ के साथ, तब परिणामी अनुमानित वितरण छात्र टी-वितरण का अनुसरण करता है। मानक त्रुटि छात्र t-वितरण का मानक विचलन है। T-वितरण गॉसियन से थोड़ा अलग हैं, और नमूने के आकार के आधार पर भिन्न होते हैं। छोटे मानक कुछ सीमा तक जनसंख्या मानक विचलन को कम आंकने की संभावना रखते हैं और इसका अर्थ है जो वास्तविक जनसंख्या माध्य से भिन्न होता है, और गॉसियन की तुलना में कुछ भारी पूंछ के साथ इन घटनाओं की संभावना के लिए छात्र टी-वितरण खाता है। छात्र टी-वितरण की मानक त्रुटि का अनुमान लगाने के लिए σ के अतिरिक्त नमूना मानक विचलन "s" का उपयोग करना पर्याप्त है, और हम विश्वास अंतराल की गणना करने के लिए इस मान का उपयोग कर सकते हैं।

नोट: मानक आकार 100 से अधिक होने पर गॉसियन वितरण द्वारा छात्र की संभाव्यता वितरण अच्छी तरह से अनुमानित है। ऐसे मानकों के लिए बाद वाले वितरण का उपयोग किया जा सकता है, जो बहुत सरल है।

धारणाएं और उपयोग
$$\operatorname{SE}$$ का उपयोग कैसे किया जाता है, इसका उदाहरण अज्ञात जनसंख्या माध्य के विश्वास अंतराल को बनाना है। यदि नमूना वितरण सामान्य रूप से वितरित किया जाता है, तो नमूना माध्य, मानक त्रुटि, और सामान्य वितरण की मात्राओं का उपयोग वास्तविक जनसंख्या माध्य के लिए विश्वास अंतराल की गणना के लिए किया जा सकता है। निम्न अभिव्यक्तियों का उपयोग ऊपरी और निचले 95% विश्वास सीमा की गणना करने के लिए किया जा सकता है, जहां $$\bar{x}$$ नमूना माध्य के बराबर है, $$\operatorname{SE}$$ मानक माध्य के लिए मानक त्रुटि के बराबर है, और 1.96 97.5 का अनुमानित मूल्य है सामान्य वितरण का प्रतिशतक बिंदु:


 * ऊपरी 95% सीमा $$= \bar{x} + (\operatorname{SE}\times 1.96) ,$$ और
 * 95% की सीमा कम करें $$= \bar{x} - (\operatorname{SE}\times 1.96) .$$

विशेष रूप से, मानक आँकड़ा (जैसे मानक माध्य) की मानक त्रुटि उस प्रक्रिया में मानक माध्य का वास्तविक या अनुमानित मानक विचलन है जिसके द्वारा इसे उत्पन्न किया गया था। दूसरे शब्दों में, यह प्रतिदर्श आँकड़ों के प्रतिचयन वितरण का वास्तविक या अनुमानित मानक विचलन है। मानक त्रुटि के लिए अंकन SE, SEM (माप या माध्य की मानक त्रुटि के लिए), या SE में से कोई एक हो सकता है।

मानक त्रुटियाँ एक मान में अनिश्चितता के सरल उपाय प्रदान करती हैं और अधिकांश इसका उपयोग किया जाता है क्योंकि:
 * कई स्थितियों में, यदि कई अलग-अलग मात्राओं की मानक त्रुटि ज्ञात है, तो मात्राओं के कुछ फलन (गणित) की मानक त्रुटि की आसानी से गणना की जा सकती है;
 * जब मान का संभाव्यता वितरण ज्ञात हो, तो इसका उपयोग त्रुटिहीन विश्वास अंतराल की गणना के लिए किया जा सकता है;
 * जब प्रायिकता वितरण अज्ञात हो, तो चेबीशेव या वैसोचन्स्की-पेटुनिन असमानताओं का उपयोग एक रूढ़िवादी विश्वास अंतराल की गणना के लिए किया जा सकता है; और
 * जैसा कि मानक आकार अनंत की ओर जाता है, केंद्रीय सीमा प्रमेय गारंटी देता है कि माध्य का मानक वितरण असमान रूप से सामान्य वितरण है।

माध्य बनाम मानक विचलन की मानक त्रुटि
वैज्ञानिक और तकनीकी साहित्य में, प्रयोगात्मक डेटा को अधिकांश या तो मानक डेटा के माध्य और मानक विचलन या मानक त्रुटि के साथ माध्य का उपयोग करके संक्षेपित किया जाता है। यह अधिकांश उनके विनिमेयता के बारे में भ्रम उत्पन्न करता है। चूंकि, माध्य और मानक विचलन वर्णनात्मक आँकड़े हैं, जबकि माध्य की मानक त्रुटि यादृच्छिक नमूनाकरण प्रक्रिया का वर्णनात्मक है। मानक डेटा का मानक विचलन माप में भिन्नता का विवरण है, जबकि माध्य की मानक त्रुटि एक संभाव्य कथन है कि कैसे मानक आकार केंद्रीय सीमा के आलोक में जनसंख्या माध्य के अनुमानों पर उत्तम सीमा प्रमेय प्रदान करेगा।

सीधे शब्दों में कहें, मानक माध्य की मानक त्रुटि इस बात का अनुमान है कि जनसंख्या माध्य से मानक माध्य कितनी दूर होने की संभावना है, जबकि मानक का मानक विचलन वह डिग्री है जो मानक के अन्दर के व्यक्ति मानक माध्य से भिन्न होते हैं। यदि जनसंख्या मानक विचलन परिमित है, तो मानक के माध्य की मानक त्रुटि बढ़ते मानक के आकार के साथ शून्य हो जाएगी, क्योंकि जनसंख्या के अनुमान में सुधार होगा, जबकि मानक का मानक विचलन जनसंख्या मानक विचलन का अनुमान लगाएगा। जैसे-जैसे मानक का आकार बढ़ता है।

परिमित जनसंख्या सुधार (एफपीसी)
मानक त्रुटि के लिए ऊपर दिया गया सूत्र मानता है कि जनसंख्या अनंत है। फिर भी, यह अधिकांश परिमित जनसंख्या के लिए उपयोग किया जाता है, जब लोग उस प्रक्रिया को मापने में रुचि रखते हैं जो मौजूदा परिमित जनसंख्या का निर्माण (इसे विश्लेषणात्मक और गणनात्मक सांख्यिकीय अध्ययन कहा जाता है) करती है। चूंकि उपरोक्त सूत्र बिल्कुल सही नहीं है जब जनसंख्या परिमित है, परिमित- और अनंत-जनसंख्या संस्करणों के बीच का अंतर छोटा होगा जब मानक अंश छोटा (उदाहरण के लिए परिमित जनसंख्या का छोटा अनुपात अध्ययन किया जाता है) होगा। इस स्थिति में लोग अधिकांश परिमित जनसंख्या के लिए सही नहीं होते हैं, अनिवार्य रूप से इसे लगभग अनंत जनसंख्या के रूप में मानते हैं।

यदि कोई मौजूदा परिमित जनसंख्या को मापने में रुचि रखता है जो समय के साथ नहीं बदलेगा, तो जनसंख्या के आकार के लिए समायोजित करना आवश्यक है (जिसे विश्लेषणात्मक और गणनात्मक सांख्यिकीय अध्ययन कहा जाता है)। जब विश्लेषणात्मक और गणनात्मक सांख्यिकीय अध्ययन में मानक अंश (अधिकांश एफ कहा जाता है) बड़ा (लगभग 5% या अधिक) होता है, तो मानक त्रुटि का अनुमान परिमित जनसंख्या सुधार से गुणा करके ठीक किया जाना चाहिए। (उर्फ: 'एफपीसी'):

\operatorname{FPC} = \sqrt{\frac{N-n}{N-1}} $$ जो, बड़े N के लिए:



\operatorname{FPC} \approx \sqrt{1-\frac{n}{N}} = \sqrt{1-f} $$ जनसंख्या के एक बड़े प्रतिशत के निकट नमूनाकरण द्वारा प्राप्त अतिरिक्त शुद्धता के लिए खाता है। एफपीसी का प्रभाव यह है कि त्रुटि शून्य हो जाती है जब मानक आकार n जनसंख्या आकार N के बराबर होता है।

यह सर्वेक्षण पद्धति में तब होता है जब बिना प्रतिस्थापन के नमूना लिया जाता है। यदि प्रतिस्थापन के साथ नमूनाकरण किया जाता है तो एफपीसी काम में नहीं आता है।

मानक में सहसंबंध के लिए सुधार
यदि मापी गई मात्रा A के मान सांख्यिकीय रूप से स्वतंत्र नहीं हैं, लेकिन पैरामीटर स्पेस 'x' में ज्ञात स्थानों से प्राप्त किए गए हैं, तो माध्य की वास्तविक मानक त्रुटि का निष्पक्ष अनुमान (वास्तव में मानक विचलन भाग पर सुधार) द्वारा प्राप्त किया जा सकता है मानक की गणना की गई मानक त्रुटि को कारक f से गुणा करना:


 * $$f= \sqrt{\frac{1+\rho}{1-\rho}} ,$$

जहां मानक पूर्वाग्रह गुणांक ρ व्यापक रूप से इस्तेमाल किया जाने वाला प्रैस-विन्स्टन अनुमान है। यह अनुमानित सूत्र मध्यम से बड़े मानक आकार के लिए है; संदर्भ किसी भी मानक आकार के लिए त्रुटिहीन सूत्र देता है, और इसे वॉल स्ट्रीट स्टॉक कोट्स जैसी भारी स्वतः सहसंबद्ध समय श्रृंखला पर प्रायुक्त किया जा सकता है। इसके अतिरिक्त, यह सूत्र धनात्मक और ऋणात्मक ρ के लिए समान रूप से काम करता है। अधिक चर्चा के लिए मानक विचलन का निष्पक्ष अनुमान भी देखें।

यह भी देखें

 * केंद्रीय सीमा प्रमेय का चित्रण
 * त्रुटि के मार्जिन
 * संभावित त्रुटि
 * भारित माध्य की मानक त्रुटि
 * मानक माध्य और मानक सहप्रसरण
 * माध्यिका की मानक त्रुटि
 * विचरण
 * माध्य और पूर्वानुमानित प्रतिक्रियाओं का प्रसरण