जनसंख्या अनुपात

आँकड़ों में, जनसंख्या अनुपात, आम तौर पर द्वारा दर्शाया जाता है $$P$$ या ग्रीक अक्षर Pi (अक्षर)|$$\pi$$, एक पैरामीटर है जो सांख्यिकीय जनसंख्या से जुड़े प्रतिशत मान का वर्णन करता है। उदाहरण के लिए, 2010 की संयुक्त राज्य अमेरिका की जनगणना से पता चला कि 83.7% अमेरिकी आबादी की पहचान हिस्पैनिक या लातीनी नहीं होने के रूप में की गई थी; .837 का मान जनसंख्या अनुपात है। सामान्य तौर पर, जनसंख्या अनुपात और अन्य जनसंख्या पैरामीटर अज्ञात हैं। जनसंख्या पैरामीटर का वास्तविक मूल्य निर्धारित करने के लिए जनगणना आयोजित की जा सकती है, लेकिन अक्सर इसकी लागत और समय की खपत के कारण जनगणना व्यावहारिक नहीं होती है।

जनसंख्या अनुपात का अनुमान आमतौर पर एक अवलोकन अध्ययन या प्रयोग (संभावना सिद्धांत) से प्राप्त नमूना पूर्वाग्रह सांख्यिकी के माध्यम से लगाया जाता है। उदाहरण के लिए, राष्ट्रीय तकनीकी साक्षरता सम्मेलन ने आर्थिक रूप से निरक्षर वयस्कों का प्रतिशत निर्धारित करने के लिए 2,000 वयस्कों का एक राष्ट्रीय सर्वेक्षण किया। अध्ययन से पता चला कि 2,000 वयस्कों में से 72% को यह समझ में नहीं आया कि सकल घरेलू उत्पाद क्या है। 72% का मान एक नमूना अनुपात है। नमूना अनुपात आम तौर पर द्वारा दर्शाया जाता है $$\hat{p}$$ और कुछ पाठ्यपुस्तकों में $$p$$.

गणितीय परिभाषा
एक अनुपात (गणित) को गणितीय रूप से एक उपसमूह में तत्वों की मात्रा (एक गणनीय मात्रा) के अनुपात के रूप में परिभाषित किया गया है $$S$$ एक सेट के आकार तक $$R$$:
 * $$P= \frac{X}{N},$$

कहाँ $$X $$ जनसंख्या में सफलताओं की गिनती है, और $$N $$ जनसंख्या का आकार है.

नमूना अनुपात की परिभाषा प्रदान करने के लिए इस गणितीय परिभाषा को सामान्यीकृत किया जा सकता है:
 * $$\hat{p}= \frac{x}{n} $$

कहाँ $$x $$ नमूने में सफलताओं की गिनती है, और $$n $$ जनसंख्या से प्राप्त नमूने का आकार है।

अनुमान
अनुमानित आँकड़ों में अध्ययन का एक मुख्य फोकस एक पैरामीटर का सही मूल्य निर्धारित करना है। आम तौर पर, किसी पैरामीटर का वास्तविक मूल्य कभी नहीं मिलेगा, जब तक कि अध्ययन की आबादी पर जनगणना नहीं की जाती है। हालाँकि, ऐसी सांख्यिकीय विधियाँ हैं जिनका उपयोग किसी पैरामीटर के लिए उचित अनुमान प्राप्त करने के लिए किया जा सकता है। इन विधियों में आत्मविश्वास अंतराल और परिकल्पना परीक्षण शामिल हैं।

जनसंख्या अनुपात के मूल्य का अनुमान लगाना कृषि, व्यवसाय, अर्थशास्त्र, शिक्षा, अभियांत्रिकी, पर्यावरण अध्ययन, चिकित्सा, कानून, राजनीति विज्ञान, मनोविज्ञान और समाजशास्त्र के क्षेत्रों में बहुत महत्वपूर्ण हो सकता है।

जनसंख्या अनुपात का अनुमान ज़ेड-अंतराल में एक-नमूना अनुपात के रूप में ज्ञात आत्मविश्वास अंतराल के उपयोग के माध्यम से लगाया जा सकता है जिसका सूत्र नीचे दिया गया है:


 * $$\hat{p}

\pm z^* \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$ कहाँ $$\hat{p}$$ नमूना अनुपात है, $$n$$ नमूना आकार है, और $$z^*$$ ऊपरी है  $$\frac{1-C}{2}$$ आत्मविश्वास के स्तर के लिए मानक सामान्य वितरण का महत्वपूर्ण मूल्य $$C$$.

प्रमाण
Z-अंतराल में एक-नमूना अनुपात के लिए सूत्र प्राप्त करने के लिए,'' नमूना अनुपात के एक नमूना वितरण को ध्यान में रखा जाना चाहिए। नमूना अनुपात के नमूना वितरण का माध्य आमतौर पर दर्शाया जाता है $$\mu_\hat{p} = P$$ और इसके मानक विचलन को इस प्रकार दर्शाया गया है:
 * $$\sigma_\hat{p} = \sqrt{\frac{P(1-P)}{n}}$$

के मूल्य के बाद से $$P$$ अज्ञात है, एक निष्पक्ष आँकड़ा $$\hat{p}$$ के लिए उपयोग किया जाएगा $$P$$. माध्य और मानक विचलन को क्रमशः इस प्रकार पुनः लिखा जाता है:
 * $$\mu_\hat{p}

= \hat{p}$$ और $$\sigma_\hat{p} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$ केंद्रीय सीमा प्रमेय को लागू करते हुए, नमूना अनुपात का नमूना वितरण लगभग सामान्य वितरण है - बशर्ते कि नमूना उचित रूप से बड़ा और असंतुलित हो।

मान लीजिए कि निम्नलिखित संभाव्यता की गणना की जाती है:
 * $$P(-z^*<\frac{\hat{p}-P}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<z^*) = C

$$, कहाँ $$0<C<1$$ और $$\pm z^*$$ मानक महत्वपूर्ण मान हैं.

असमानता (गणित)
 * $$-z^*<\frac{\hat{p}-P}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<z^*

$$ बीजगणितीय रूप से इस प्रकार पुनः लिखा जा सकता है:
 * $$-z^*<\frac{\hat{p}-P}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<z^*

\Rightarrow -z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<\hat{p}-P<z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \Rightarrow -\hat{p}-z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<-P<-\hat{p}+z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \Rightarrow \hat{p}-z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}<P<\hat{p}+z^*{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} $$ ऊपर किए गए बीजगणितीय कार्य से, यह निश्चितता के स्तर से स्पष्ट है $$C$$ वह$$P$$ इनके मूल्यों के बीच में आ सकता है:
 * $$\hat{p}

\pm z^* \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$.

अनुमान के लिए शर्तें
सामान्य तौर पर, जनसंख्या अनुपात का अनुमान लगाने के लिए उपयोग किए जाने वाले सूत्र को ज्ञात संख्यात्मक मानों के प्रतिस्थापन की आवश्यकता होती है। हालाँकि, इन संख्यात्मक मानों को सूत्र में आँख बंद करके प्रतिस्थापित नहीं किया जा सकता क्योंकि सांख्यिकीय अनुमान के लिए आवश्यक है कि किसी अज्ञात पैरामीटर का अनुमान उचित हो। किसी पैरामीटर के अनुमान को उचित ठहराने के लिए, तीन शर्तें हैं जिन्हें सत्यापित करने की आवश्यकता है: \hat{p} \geq 10$$ और $$n(1-\hat{p})\geq10$$, तो डेटा के व्यक्तिगत अवलोकन सामान्यता प्रदर्शित करते हैं। अधिकांश सांख्यिकीय पाठ्यपुस्तकों में एसआरएस, सामान्यता और स्वतंत्रता की शर्तों को कभी-कभी अनुमान टूल बॉक्स की शर्तों के रूप में संदर्भित किया जाता है।
 * 1) डेटा का व्यक्तिगत अवलोकन रुचि की जनसंख्या के एक सरल यादृच्छिक नमूने से प्राप्त किया जाना है।
 * 2) डेटा के व्यक्तिगत अवलोकनों में सामान्यता (सांख्यिकी) प्रदर्शित होनी चाहिए। इसे निम्नलिखित परिभाषा से गणितीय रूप से सत्यापित किया जा सकता है:
 * 3) * होने देना $$n$$ किसी दिए गए यादृच्छिक नमूने का नमूना आकार हो और चलो $$\hat{p}$$ इसका नमूना अनुपात हो. अगर  $$n
 * 1) डेटा के व्यक्तिगत अवलोकन एक-दूसरे पर निर्भर और स्वतंत्र चर होने चाहिए। इसे निम्नलिखित परिभाषा से गणितीय रूप से सत्यापित किया जा सकता है:
 * 2) * होने देना $$N$$ रुचि की जनसंख्या का आकार हो और चलो $$n$$ जनसंख्या के एक साधारण यादृच्छिक नमूने का नमूना आकार हो। अगर $$N\geq10n$$, तो डेटा के व्यक्तिगत अवलोकन एक दूसरे से स्वतंत्र होते हैं।

उदाहरण
मान लीजिए लोकतंत्र में राष्ट्रपति का चुनाव हो रहा है। लोकतंत्र की मतदाता आबादी में 400 पात्र मतदाताओं का एक यादृच्छिक नमूना दर्शाता है कि 272 मतदाता उम्मीदवार बी का समर्थन करते हैं। एक राजनीतिक वैज्ञानिक यह निर्धारित करना चाहता है कि मतदाता आबादी का कितना प्रतिशत उम्मीदवार बी का समर्थन करता है।

राजनीतिक वैज्ञानिक के प्रश्न का उत्तर देने के लिए, इस लोकतंत्र में उम्मीदवार बी का समर्थन करने वाले योग्य मतदाताओं के जनसंख्या अनुपात को निर्धारित करने के लिए 95% के विश्वास स्तर के साथ जेड-अंतराल में एक-नमूना अनुपात का निर्माण किया जा सकता है।

समाधान
रैंडम सैंपल से ये पता चलता है $$\hat{p} = \frac{272}{400} = 0.68$$ नमूना आकार के साथ $$n = 400$$. विश्वास अंतराल के निर्माण से पहले, अनुमान की शर्तों को सत्यापित किया जाएगा। = 400$$ और $$\hat{p} = 0.68$$, इसकी जांच की जाएगी $$n \hat{p} \geq 10$$ और $$n(1-\hat{p})\geq10$$
 * चूंकि मतदान करने वाली आबादी से 400 मतदाताओं का एक यादृच्छिक नमूना प्राप्त किया गया था, इसलिए एक साधारण यादृच्छिक नमूने की शर्त पूरी हो गई है।
 * होने देना $$n
 * $$(400)

(0.68) \geq 10 \Rightarrow 272 \geq 10$$ और  $$(400) (1-0.68) \geq 10 \Rightarrow 128 \geq 10$$
 * सामान्य स्थिति की शर्त पूरी कर ली गई है।

= 400$$. अगर $$N \geq 10 n$$, तो स्वतंत्रता है।
 * होने देना $$N$$ इस लोकतंत्र में मतदाता जनसंख्या का आकार हो, और रहने दो $$n
 * $$N

\geq 10(400) \Rightarrow N \geq 4000$$
 * जनसंख्या का आकार $$N$$ इस लोकतंत्र के मतदाताओं की संख्या कम से कम 4,000 मानी जा सकती है। अत: स्वतंत्रता की शर्त पूरी हो गई है।

अनुमान की शर्तों को सत्यापित करने के साथ, एक विश्वास अंतराल का निर्माण करने की अनुमति है।

होने देना $$\hat{p} = 0.68, n = 400 ,$$ और $$C = 0.95$$ के लिए समाधान करना $$z^*$$, अभिव्यक्ति (गणित) $$\frac{1-C}{2}$$ प्रयोग किया जाता है।

$$\frac{1-C}{2} = \frac{1-0.95}{2} = \frac{0.05}{2} = 0.0250$$ एक मानक सामान्य घंटी वक्र की जांच करके, के लिए मूल्य $$z^*$$ यह पहचान कर निर्धारित किया जा सकता है कि कौन सा मानक स्कोर मानक सामान्य वक्र को 0.0250 का ऊपरी पूंछ क्षेत्र या 1 - 0.0250 = 0.9750 का क्षेत्र देता है। के लिए मूल्य $$z^*$$ इसे मानक सामान्य संभावनाओं की तालिका के माध्यम से भी पाया जा सकता है।

मानक सामान्य संभावनाओं की तालिका से, का मान $$Z$$ जो 0.9750 का क्षेत्रफल देता है वह 1.96 है। इसलिए, के लिए मूल्य $$z^*$$ 1.96 है.

के लिए मान $$\hat{p} = 0.68$$, $$n = 400$$, $$z^* = 1.96$$ अब इसे Z-अंतराल में एक-नमूना अनुपात के सूत्र में प्रतिस्थापित किया जा सकता है:

$$\hat{p} \pm z^* \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \Rightarrow (0.68) \pm (1.96) \sqrt{\frac{(0.68)(1-0.68)}{(400)}} \Rightarrow 0.68 \pm 1.96 \sqrt{0.000544}$$ $$\Rightarrow \bigl(0.63429,0.72571\bigr)$$ अनुमान की शर्तों और ज़ेड-अंतराल में एक-नमूना अनुपात के सूत्र के आधार पर, 95% विश्वास स्तर के साथ यह निष्कर्ष निकाला जा सकता है कि इस लोकतंत्र में उम्मीदवार बी का समर्थन करने वाले मतदाता आबादी का प्रतिशत 63.429% और 72.571 के बीच है। %.

कॉन्फिडेंस इंटरवल रेंज में पैरामीटर का मान
अनुमानित आँकड़ों में आमतौर पर पूछा जाने वाला प्रश्न यह है कि क्या पैरामीटर को विश्वास अंतराल के भीतर शामिल किया गया है। इस प्रश्न का उत्तर देने का एकमात्र तरीका जनगणना आयोजित करना है। ऊपर दिए गए उदाहरण का संदर्भ लेते हुए, जनसंख्या अनुपात विश्वास अंतराल की सीमा में होने की संभावना या तो 1 या 0 है। यानी, पैरामीटर अंतराल सीमा में शामिल है या नहीं। कॉन्फिडेंस इंटरवल का मुख्य उद्देश्य यह बेहतर ढंग से बताना है कि किसी पैरामीटर के लिए आदर्श मान संभवतः क्या हो सकता है।

अनुमान से सामान्य त्रुटियाँ और गलत व्याख्याएँ
आत्मविश्वास अंतराल के निर्माण से उत्पन्न होने वाली एक बहुत ही सामान्य त्रुटि यह विश्वास है कि आत्मविश्वास का स्तर, जैसे $$C = 95%$$, मतलब 95% संभावना. ये ग़लत है. आत्मविश्वास का स्तर निश्चितता के माप पर आधारित है, संभावना पर नहीं। इसलिए, के मूल्य $$C$$ विशेष रूप से 0 और 1 के बीच गिरना।

रैंक सेट सैंपलिंग का उपयोग करके पी का अनुमान
सरल यादृच्छिक नमूने के बजाय रैंक सेट नमूनाकरण चुनकर पी का अधिक सटीक अनुमान प्राप्त किया जा सकता है

यह भी देखें

 * द्विपद अनुपात विश्वास अंतराल
 * विश्वास अंतराल
 * व्यापकता
 * सांख्यिकीय परिकल्पना परीक्षण
 * सांख्यिकीय निष्कर्ष
 * सांख्यिकीय पैरामीटर
 * सहिष्णुता अंतराल