सरल यादृच्छिक नमूना

आँकड़ों में, एक साधारण यादृच्छिक नमूना (या SRS) एक बड़े [[सबसेट (गणित)]] (एक सांख्यिकीय आबादी) से चुने गए व्यक्तियों (एक नमूना (सांख्यिकी)) का एक उपसमुच्चय होता है जिसमें व्यक्तियों के एक उपसमुच्चय को यादृच्छिकरण चुना जाता है, सभी उसी के साथ संभावना। यह यादृच्छिक तरीके से नमूने के चयन की एक प्रक्रिया है। SRS में, k व्यक्तियों के प्रत्येक उपसमुच्चय में नमूने के लिए चुने जाने की उतनी ही संभावना है जितनी कि k व्यक्तियों के किसी अन्य उपसमुच्चय के रूप में। एक साधारण यादृच्छिक नमूना एक निष्पक्ष नमूनाकरण तकनीक है। सरल यादृच्छिक नमूनाकरण एक बुनियादी प्रकार का नमूनाकरण है और यह अन्य अधिक जटिल नमूनाकरण विधियों का एक घटक हो सकता है।

परिचय
साधारण यादृच्छिक प्रतिचयन का सिद्धांत यह है कि वस्तुओं के प्रत्येक समूह के चुने जाने की समान संभावना होती है। उदाहरण के लिए, मान लीजिए एन कॉलेज के छात्र बास्केटबॉल खेल के लिए टिकट प्राप्त करना चाहते हैं, लेकिन उनके लिए केवल एक्स <एन टिकट हैं, इसलिए वे यह देखने का एक उचित तरीका तय करते हैं कि किसे जाना है। फिर, सभी को 0 से N-1 की सीमा में एक संख्या दी जाती है, और यादृच्छिक संख्याएँ या तो इलेक्ट्रॉनिक रूप से या यादृच्छिक संख्याओं की तालिका से उत्पन्न होती हैं। 0 से N-1 की सीमा के बाहर की संख्या को अनदेखा कर दिया जाता है, जैसा कि पहले से चयनित किसी भी संख्या में होता है। पहले X नंबर भाग्यशाली टिकट विजेताओं की पहचान करेंगे।

छोटी आबादी में और अक्सर बड़ी आबादी में, इस तरह के नमूने आम तौर पर 'बिना प्रतिस्थापन' के किए जाते हैं, यानी, एक से अधिक बार आबादी के किसी भी सदस्य को जानबूझकर चुनने से बचा जाता है। हालांकि सरल यादृच्छिक नमूनाकरण प्रतिस्थापन के साथ आयोजित किया जा सकता है, यह कम आम है और सामान्य रूप से 'प्रतिस्थापन के साथ' सरल यादृच्छिक नमूनाकरण के रूप में अधिक पूर्ण रूप से वर्णित किया जाएगा। प्रतिस्थापन के बिना किया गया नमूनाकरण अब स्वतंत्र नहीं है, लेकिन फिर भी विनिमेय यादृच्छिक चर को संतुष्ट करता है, इसलिए कई परिणाम अभी भी पकड़ में हैं। इसके अलावा, एक बड़ी आबादी से एक छोटे नमूने के लिए, प्रतिस्थापन के बिना नमूनाकरण लगभग प्रतिस्थापन के साथ नमूनाकरण के समान है, क्योंकि एक ही व्यक्ति को दो बार चुनने की संभावना कम है।

व्यक्तियों का एक निष्पक्ष यादृच्छिक चयन महत्वपूर्ण है ताकि यदि कई नमूने तैयार किए गए हों, तो औसत नमूना सटीक रूप से जनसंख्या का प्रतिनिधित्व करेगा। हालांकि, यह गारंटी नहीं देता है कि एक विशेष नमूना जनसंख्या का सही प्रतिनिधित्व है। सरल यादृच्छिक नमूनाकरण केवल नमूने के आधार पर पूरी आबादी के बारे में बाहरी रूप से मान्य निष्कर्ष निकालने की अनुमति देता है।

संकल्पनात्मक रूप से, सरल यादृच्छिक प्रतिचयन प्रायिकता प्रतिचयन तकनीकों में सबसे सरल है। इसके लिए एक पूर्ण नमूना फ्रेम की आवश्यकता होती है, जो कि बड़ी आबादी के निर्माण के लिए उपलब्ध या व्यवहार्य नहीं हो सकता है। यहां तक ​​​​कि अगर एक पूर्ण रूपरेखा उपलब्ध है, तो जनसंख्या में इकाइयों के बारे में अन्य उपयोगी जानकारी उपलब्ध होने पर अधिक कुशल दृष्टिकोण संभव हो सकते हैं।

लाभ यह है कि यह वर्गीकरण त्रुटि से मुक्त है, और इसके लिए फ्रेम के अलावा जनसंख्या के न्यूनतम अग्रिम ज्ञान की आवश्यकता होती है। इसकी सादगी भी इस तरह से एकत्र किए गए डेटा की व्याख्या करना अपेक्षाकृत आसान बनाती है। इन कारणों से, सरल यादृच्छिक नमूनाकरण उन स्थितियों के लिए सबसे उपयुक्त है जहां जनसंख्या के बारे में अधिक जानकारी उपलब्ध नहीं है और यादृच्छिक रूप से वितरित वस्तुओं पर डेटा संग्रह कुशलतापूर्वक आयोजित किया जा सकता है, या जहां नमूनाकरण की लागत सरलता की तुलना में दक्षता को कम महत्वपूर्ण बनाने के लिए काफी कम है। यदि ये स्थितियाँ पकड़ में नहीं आती हैं, तो स्तरीकृत नमूनाकरण या क्लस्टर नमूनाकरण एक बेहतर विकल्प हो सकता है।

समान संभावना नमूनाकरण (ईपीएसईएम)
एक नमूना विधि जिसके लिए प्रत्येक व्यक्तिगत इकाई के चुने जाने का समान मौका होता है, उसे समान संभाव्यता नमूनाकरण (लघु के लिए एप्सेम) कहा जाता है।

एक साधारण यादृच्छिक नमूने का उपयोग करने से हमेशा एक एप्सेम होता है, लेकिन सभी एप्सेम नमूने एसआरएस नहीं होते हैं। उदाहरण के लिए, यदि किसी शिक्षिका की कक्षा 6 स्तंभों की 5 पंक्तियों में व्यवस्थित है और वह 5 छात्रों का एक यादृच्छिक नमूना लेना चाहती है, तो वह यादृच्छिक रूप से 6 स्तंभों में से एक चुन सकती है। यह एक एप्सेम नमूना होगा लेकिन 5 विद्यार्थियों के सभी उपसमुच्चय यहां समान रूप से होने की संभावना नहीं है, क्योंकि केवल एक स्तंभ के रूप में व्यवस्थित उपसमुच्चय चयन के लिए पात्र हैं। बहुस्तरीय नमूनाकरण  के निर्माण के तरीके भी हैं, जो srs नहीं हैं, जबकि अंतिम सैंपल एप्सेम होगा। उदाहरण के लिए, व्यवस्थित नमूनाकरण एक नमूना तैयार करता है जिसके लिए प्रत्येक व्यक्तिगत इकाई में शामिल होने की समान संभावना होती है, लेकिन इकाइयों के विभिन्न सेटों में चयनित होने की अलग-अलग संभावनाएं होती हैं।

एप्सेम वाले नमूने स्वयं भार हैं, जिसका अर्थ है कि प्रत्येक नमूने के लिए चयन संभावना का व्युत्क्रम समान है।

एक व्यवस्थित यादृच्छिक नमूना और एक साधारण यादृच्छिक नमूना
के बीच अंतर

1000 छात्रों वाले एक स्कूल पर विचार करें, और मान लें कि एक शोधकर्ता आगे के अध्ययन के लिए उनमें से 100 का चयन करना चाहता है। उनके सभी नाम एक बाल्टी में डाले जाएंगे और फिर 100 नाम निकाले जाएंगे। न केवल प्रत्येक व्यक्ति के पास चुने जाने की समान संभावना होती है, बल्कि हम किसी दिए गए व्यक्ति के चुने जाने की संभावना (P) की भी आसानी से गणना कर सकते हैं, क्योंकि हम नमूना आकार (n) और जनसंख्या (N) जानते हैं:

1. इस मामले में कि किसी दिए गए व्यक्ति को केवल एक बार चुना जा सकता है (अर्थात, चयन के बाद किसी व्यक्ति को चयन पूल से हटा दिया जाता है):



\begin{align} P &= 1 - \frac{N-1}{N} \cdot \frac{N-2}{N - 1} \cdot \cdots \cdot \frac{N-n}{N - (n - 1)} \\[8pt] &\stackrel{\text{Canceling:}}{=} 1 - \frac{N - n}N \\[8pt] &= \frac nN \\[8pt] &= \frac{100}{1000} \\[8pt] &= 10\% \end{align} $$ 2. मामले में कि किसी भी चयनित व्यक्ति को चयन पूल में वापस कर दिया जाता है (यानी, एक से अधिक बार चुना जा सकता है):



P = 1-\left(1-\frac{1}{N}\right)^n = 1 - \left(\frac{999}{1000}\right)^{100} = 0.0952\dots \approx 9.5\% $$ इसका मतलब यह है कि स्कूल में प्रत्येक छात्र के पास किसी भी स्थिति में इस पद्धति का उपयोग करके चुने जाने का लगभग 10 में से 1 मौका होता है। इसके अलावा, 100 छात्रों के किसी भी संयोजन में चयन की समान संभावना है।

यदि यादृच्छिक नमूने में एक व्यवस्थित पैटर्न पेश किया जाता है, तो इसे व्यवस्थित (यादृच्छिक) नमूनाकरण कहा जाता है। एक उदाहरण यह होगा कि यदि स्कूल में छात्रों के नाम के साथ 0001 से 1000 तक की संख्याएँ जुड़ी हुई थीं, और हमने एक यादृच्छिक प्रारंभिक बिंदु चुना, उदा। 0533, और उसके बाद हमें 100 का नमूना देने के लिए हर 10वां नाम चुना (0993 तक पहुंचने के बाद 0003 से शुरू)। इस अर्थ में, यह तकनीक क्लस्टर नमूनाकरण के समान है, क्योंकि पहली इकाई का चुनाव शेष का निर्धारण करेगा। यह अब सरल यादृच्छिक नमूनाकरण नहीं है, क्योंकि 100 छात्रों के कुछ संयोजनों में दूसरों की तुलना में बड़ी चयन संभावना है - उदाहरण के लिए, {3, 13, 23, ..., 993} में चयन का 1/10 मौका है, जबकि {1, 2, 3, ..., 100} को इस पद्धति के अंतर्गत नहीं चुना जा सकता है।

द्विबीजपत्री जनसंख्या का प्रतिचयन
यदि जनसंख्या के सदस्य तीन प्रकार में आते हैं, कहते हैं नीला लाल और काला, दिए गए आकार के नमूने में लाल तत्वों की संख्या नमूने के अनुसार अलग-अलग होगी और इसलिए एक यादृच्छिक चर है जिसका वितरण अध्ययन किया जा सकता है। यह वितरण पूर्ण जनसंख्या में लाल और काले तत्वों की संख्या पर निर्भर करता है। प्रतिस्थापन के साथ एक साधारण यादृच्छिक नमूने के लिए, वितरण एक द्विपद वितरण है। प्रतिस्थापन के बिना एक साधारण यादृच्छिक नमूने के लिए, एक हाइपरज्यामितीय वितरण प्राप्त करता है।

एल्गोरिदम
सरल यादृच्छिक प्रतिचयन के लिए कई कुशल एल्गोरिदम विकसित किए गए हैं। एक भोली एल्गोरिथ्म ड्रा-बाय-ड्रा एल्गोरिथम है जहां प्रत्येक चरण पर हम उस चरण में आइटम को समान संभावना के साथ सेट से हटाते हैं और आइटम को नमूने में डालते हैं। हम तब तक जारी रखते हैं जब तक हमारे पास वांछित आकार का नमूना नहीं होता $$k$$. इस पद्धति का दोष यह है कि इसके लिए सेट में रैंडम एक्सेस की आवश्यकता होती है।

फैन एट अल द्वारा विकसित चयन-अस्वीकृति एल्गोरिथ्म। 1962 में डेटा पर एकल पास की आवश्यकता है; हालाँकि, यह एक अनुक्रमिक एल्गोरिथम है और इसके लिए वस्तुओं की कुल संख्या के ज्ञान की आवश्यकता होती है $$n$$, जो स्ट्रीमिंग परिदृश्यों में उपलब्ध नहीं है।

1977 में Sunter द्वारा एक बहुत ही सरल यादृच्छिक छँटाई एल्गोरिथ्म सिद्ध किया गया था। एल्गोरिथम केवल समान वितरण से तैयार की गई एक यादृच्छिक संख्या प्रदान करता है $$(0,1)$$ प्रत्येक आइटम की कुंजी के रूप में, फिर कुंजी का उपयोग करके सभी आइटमों को क्रमबद्ध करें और सबसे छोटे का चयन करें $$k$$ सामान।

1985 में जे. विटर प्रस्तावित जलाशय नमूनाकरण एल्गोरिदम, जो व्यापक रूप से उपयोग किए जाते हैं। इस एल्गोरिथ्म को जनसंख्या के आकार के ज्ञान की आवश्यकता नहीं है $$n$$ अग्रिम में, और निरंतर स्थान का उपयोग करता है।

नमूनों के बीच अंतराल के वितरण से नमूनाकरण द्वारा यादृच्छिक नमूनाकरण में भी तेजी लाई जा सकती है और अंतराल पर लंघन।

यह भी देखें

 * मल्टीस्टेज सैंपलिंग
 * गैर संभावित नमूना
 * जनमत सर्वेक्षण
 * मात्रात्मक विपणन अनुसंधान
 * नमूना डिजाइन
 * बरनौली नमूनाकरण
 * ज़हर का नमूना

संदर्भ
the