नमूनाकरण (सांख्यिकी)

सांख्यिकी, गुणवत्ता आश्वासन, और सर्वेक्षण पद्धति में, नमूना एक सांख्यिकीय जनसंख्या के बीच में से व्यक्तियों के एक सबसेट (एक सांख्यिकीय नमूने) का चयन है, जो पूरी जनसंख्या की विशेषताओं का अनुमान लगाता है।सांख्यिकीविद् ऐसे नमूने एकत्र करने का प्रयास करते हैं,जो विचाराधीन जनसंख्या के प्रतिनिधि हैं।नमूनाकरण(सैंपलिंग) में पूरी जनसंख्या को मापने की तुलना में कम लागत और तेजी से डेटा संग्रह होता है,और उन मामलों में अंतर्दृष्टि प्रदान कर सकता है, जहां यह पूरी जनसंख्या को मापना असंभव है।

प्रत्येक अवलोकन स्वतंत्र वस्तुओं या व्यक्तियों के एक या अधिक गुणों (जैसे वजन, स्थान, रंग) को मापता है।सर्वेक्षण के नमूने में,प्रतिदर्श अभिकल्प (नमूना डिजाइन)को समायोजित करने के लिए जानकारी(डेटा) तैयार करना है, विशेष रूप से स्तरीकृत नमूनाकरण में। संभावना सिद्धांत और सांख्यिकीय सिद्धांत से परिणाम अभ्यास को निर्देशित या मार्गदर्शन करने के लिए नियोजित हैं।व्यवसाय और चिकित्सा अनुसंधान में, जनसंख्या के बारे में जानकारी इकट्ठा करने के लिए नमूना व्यापक रूप से उपयोग किया जाता है। स्वीकृति नमूनाकरण का उपयोग यह निर्धारित करने के लिए किया जाता है कि क्या सामग्री का उत्पादन शासित विनिर्देशों को पूरा करता है।

जनसंख्या परिभाषा
सफल सांख्यिकीय अभ्यास केंद्रित समस्या की परिभाषा पर आधारित है। नमूने में, उस जनसंख्या को परिभाषित करना शामिल है जिसमें से हमारा नमूना खींचा गया है। जनसंख्या में सभी लोगों या वस्तुओं को शामिल करने के रूप में परिभाषित किया जा सकता है, जो समझने की इच्छा रखते हैं। क्योंकि सभी से जानकारी इकट्ठा करने के लिए बहुत कम ही समय और पैसा होता है,और उसका लक्ष्य उस जनसंख्या का एक प्रतिनिधि नमूना (या सबसेट) खोजना हो जाता है।

कभी -कभी जो जनसंख्या को परिभाषित करता है वह स्पष्ट है। उदाहरण के लिए, एक निर्माता को यह तय करने की आवश्यकता होती है कि उत्पादन से सामग्री का एक बैच ग्राहक को जारी करने के लिए उच्च गुणवत्ता का है, या खराब गुणवत्ता के कारण रद्दी माल( स्क्रैप) या फिर से काम( रीवर्क) के लिए सजा सुनाई जानी चाहिए। इस मामले में बैच जनसंख्या है।

यद्यपि जनसंख्या की रुचि में अक्सर भौतिक वस्तुएं होती हैं, कभी -कभी समय, स्थान, या इन आयामों के कुछ संयोजन के साथ नमूना लेना आवश्यक होता है। उदाहरण के लिए, सुपर बाजार(सुपरमार्केट)स्टाफिंग की एक जांच विभिन्न समय पर नियंत्रण पंक्ति (चेकआउट लाइन) की लंबाई की जांच कर सकती है, या लुप्तप्राय पेंगुइन पर एक अध्ययन का उद्देश्य समय के साथ विभिन्न शिकार के मैदानों के उनके उपयोग को समझना हो सकता है।  लंबी अवधि के लिए,ध्यान संकेन्द्रण या महत्वपूर्ण अवसर पर हो सकता है।

अन्य मामलों में, जांच की गई 'जनसंख्या' और भी कम मूर्त हो सकती है। उदाहरण के लिए, जोसेफ जैगर ने मोंटे कार्लो में एक कैसीनो में रूले पहियों के व्यवहार का अध्ययन किया, और एक पक्षपाती पहिया की पहचान करने के लिए इसका उपयोग किया। इस मामले में, 'जनसंख्या' जैगर जांच करना चाहता था (यानी असीम रूप से कई परीक्षणों पर इसके परिणामों की संभावना वितरण), जबकि उसका 'नमूना' उस पहिया से देखे गए परिणामों से बना था। जैसे कि तांबे की विद्युत चालकता कुछ भौतिक विशेषता के बार -बार माप लेते हैं,इसी तरह के विचार तब उत्पन्न होते हैं ,

यह स्थिति अक्सर उस कारण प्रणाली के बारे में ज्ञान की तलाश से उत्पन्न होती है, जिसका परिणाम जनसंख्या का अवलोकन है। ऐसे मामलों में,नमूना सिद्धांत प्रेक्षित जनसंख्या को एक बड़े अतिजनसंख्या ('सुपरपॉपुलेशन') से एक नमूने के रूप में मान सकता है। उदाहरण के लिए,एक शोधकर्ता 100 रोगियों के एक परीक्षण समूह पर एक नए 'धूम्रपान छोड़ो'( 'क्विट स्मोकिंग') की सफलता दर का अध्ययन कर सकता है, ताकि कार्यक्रम के प्रभावों की भविष्यवाणी को देशव्यापी उपलब्ध कराया जा सके। जिस यह उपचार देश की अतिजनसंख्या(सुपरपॉपुलेशन) तक पहुंच पाए- एक समूह जो अभी तक अस्तित्व में नहीं है, क्योंकि कार्यक्रम अभी तक सभी के लिए उपलब्ध नहीं है।

जिस जनसंख्या से नमूना लिया जाता है, वह उस जनसंख्या के समान नहीं हो सकती है, जिसके बारे में जानकारी वांछित है। अक्सर विचाराधीन मुद्दों के कारण इन दो समूहों के बीच बड़ा लेकिन पूरा अतिव्यापन(ओवरलैप) नहीं होता है। कभी -कभी वे पूरी तरह से अलग हो सकते हैं - उदाहरण के लिए, कोई व्यक्ति मानव स्वास्थ्य की बेहतर समझ प्राप्त करने के लिए चूहों का अध्ययन कर सकता है,या कोई 2008 में पैदा हुए लोगों से  अभिलेख(रिकॉर्ड)का अध्ययन कर सकता है ताकि 2009 में पैदा हुए लोगों के बारे में भविष्यवाणियां की जा सकें।

सटीक जनसंख्या और जनसंख्या के प्रयोजन को सटीक बनाने में बिताया गया समय अक्सर अच्छी तरह से खर्च किया जाता है, क्योंकि यह कई अस्पष्टताओं के मुद्दों के प्रति प्रश्नों को उठाता है जो अन्यथा इस स्तर पर अनदेखी की जाती हैं।

नमूना फ्रेम
सबसे सरल मामले में, जैसे कि उत्पादन से सामग्री के एक बैच का नमूना (बहुत से स्वीकृति नमूनाकरण), जनसंख्या में हर एक वस्तु को पहचानने और मापने और उनमें से किसी एक को हमारे नमूने में शामिल करने के लिए सबसे अधिक वांछनीय होगा। सामान्यतय, अधिक सामान्य मामले में यह आमतौर पर संभव या व्यावहारिक नहीं है। चूहों के झुंड में सभी चूहों की पहचान करने का कोई तरीका नहीं है।जहां मतदान अनिवार्य नहीं है, वहां यह पहचानने का कोई तरीका नहीं है कि कौन से लोग आगामी चुनाव में (चुनाव से पहले) में वोट देंगे।ये अनिश्चित जनसंख्या से नीचे दिए गए किसी भी तरीके से नमूने के लिए उत्तरदायी नहीं हैं और जिस पर हम सांख्यिकीय सिद्धांत को लागू कर सकते हैं।

एक उपाय के रूप में, हम एक नमूना फ्रेम की तलाश करते हैं जिसमें संपत्ति होती है जिसे हम हर एक तत्व की पहचान कर सकते हैं और हमारे नमूने में किसी भी शामिल हैं।  फ्रेम का सबसे सीधा प्रकार उपयुक्त संपर्क जानकारी के साथ आबादी के तत्वों (अधिमानतः पूरी आबादी) की एक सूची है। उदाहरण के लिए, एक जनमत सर्वेक्षण में, संभावित नमूने फ्रेम में एक चुनावी रजिस्टर और एक टेलीफोन निर्देशिका शामिल हैं।

एक संभावना नमूना एक नमूना है जिसमें आबादी में प्रत्येक इकाई के पास नमूने में चयनित होने का एक मौका (शून्य से अधिक) होता है, और यह संभावना सटीक रूप से निर्धारित की जा सकती है। इन लक्षणों का संयोजन चयन की संभावना के अनुसार नमूना इकाइयों को भारित करके, जनसंख्या योग के निष्पक्ष अनुमानों का उत्पादन करना संभव बनाता है।

 उदाहरण: हम किसी दिए गए गली में रहने वाले वयस्कों की कुल आय का अनुमान लगाना चाहते हैं। हम उस सड़क के प्रत्येक घर का दौरा करते हैं, वहां रहने वाले सभी वयस्कों की पहचान करते हैं, और प्रत्येक घर से एक वयस्क का बेतरतीब ढंग से चयन करते हैं। (उदाहरण के लिए, हम प्रत्येक व्यक्ति को एक यादृच्छिक संख्या आवंटित कर सकते हैं, जो 0 और 1 के बीच एक समान वितरण से उत्पन्न होता है, और प्रत्येक घर में उच्चतम संख्या वाले व्यक्ति का चयन कर सकता है)। हम तब चयनित व्यक्ति का साक्षात्कार करते हैं और उनकी आय पाते हैं। 

 अपने दम पर रहने वाले लोगों को चुना जाना निश्चित है, इसलिए हम बस अपनी आय को कुल के अपने अनुमान में जोड़ते हैं। लेकिन दो वयस्कों के घर में रहने वाले व्यक्ति के पास चयन का केवल एक-दो मौका है। इसे प्रतिबिंबित करने के लिए, जब हम इस तरह के घर में आते हैं, तो हम चयनित व्यक्ति की आय को दो बार कुल की ओर गिनेंगे। (जिस व्यक्ति को  'उस घर से चुना गया है, को शिथिल रूप से देखा जा सकता है, साथ ही उस व्यक्ति का प्रतिनिधित्व किया जा सकता है, जो' 'चयनित नहीं है।)'      

उपरोक्त उदाहरण में, हर किसी के पास चयन की समान संभावना नहीं है; क्या यह एक संभावना नमूना बनाता है तथ्य यह है कि प्रत्येक व्यक्ति की संभावना ज्ञात है। जब जनसंख्या में प्रत्येक तत्व '' 'करता है, तो चयन की समान संभावना होती है, इसे' चयन की समान संभावना '(ईपीएस) डिजाइन के रूप में जाना जाता है। इस तरह के डिजाइनों को 'सेल्फ-वेटिंग' भी कहा जाता है क्योंकि सभी सैंपल यूनिट्स को एक ही वजन दिया जाता है।

संभाव्यता नमूने में शामिल हैं: सरल यादृच्छिक नमूनाकरण, व्यवस्थित नमूनाकरण, स्तरीकृत नमूनाकरण, आकार के नमूने के लिए संभावना आनुपातिक, और क्लस्टर या मल्टीस्टेज नमूनाकरण। संभावना नमूने के इन विभिन्न तरीकों में दो चीजें समान हैं:
 * 1) प्रत्येक तत्व में एक ज्ञात नॉनजेरो संभावना है और नमूना लिया जा रहा है
 * 2) कुछ बिंदु पर यादृच्छिक चयन शामिल है।

नॉनप्रोबैबिलिटी सैंपलिंग
नॉनप्रोबैबिलिटी सैंपलिंग कोई भी सैंपलिंग विधि है, जहां आबादी के कुछ तत्वों के पास  कोई  'चयन का मौका होता है (इन्हें कभी -कभी' कवरेज से बाहर '/' अंडरकवर्ड 'के रूप में संदर्भित किया जाता है), या जहां चयन की संभावना सही नहीं हो सकती है निर्धारित। इसमें ब्याज की आबादी के बारे में मान्यताओं के आधार पर तत्वों का चयन शामिल है, जो चयन के लिए मानदंड बनाता है। इसलिए, क्योंकि तत्वों का चयन गैर -आयामी है, नॉनप्रोबैबिलिटी सैंपलिंग नमूने की त्रुटियों के अनुमान की अनुमति नहीं देता है। ये स्थितियां बहिष्करण पूर्वाग्रह को जन्म देती हैं, इस बात पर सीमाएँ देती हैं कि एक नमूना आबादी के बारे में कितनी जानकारी प्रदान कर सकता है। नमूना और जनसंख्या के बीच संबंध के बारे में जानकारी सीमित है, जिससे नमूना से आबादी में एक्सट्रपलेशन करना मुश्किल हो जाता है।

 उदाहरण: हम किसी दिए गए गली में हर घर का दौरा करते हैं, और दरवाजे का जवाब देने के लिए पहले व्यक्ति का साक्षात्कार करते हैं। एक से अधिक रहने वाले के साथ किसी भी घर में, यह एक गैर -लाभकारी नमूना है, क्योंकि कुछ लोगों को दरवाजे का जवाब देने की अधिक संभावना है (जैसे कि एक बेरोजगार व्यक्ति जो घर पर अपना अधिकांश समय बिताता है, एक नियोजित गृहिणी की तुलना में जवाब देने की अधिक संभावना है जो हो सकता है काम पर जब साक्षात्कारकर्ता कॉल करता है) और इन संभावनाओं की गणना करना व्यावहारिक नहीं है। 

नॉनप्रोबैबिलिटी सैंपलिंग विधियों में सुविधा नमूनाकरण, कोटा नमूनाकरण और उद्देश्यपूर्ण नमूना शामिल हैं। इसके अलावा, गैर -प्रभाव प्रभाव किसी भी '' संभाव्यता डिजाइन को एक गैर -लाभकारी डिजाइन में बदल सकते हैं, यदि गैर -जिम्मेदारियों की विशेषताओं को अच्छी तरह से समझा नहीं जाता है, क्योंकि गैर -जिम्मेदारियों को प्रभावी ढंग से प्रत्येक तत्व की संभावना को नमूना होने की संभावना को संशोधित किया जाता है।

नमूनाकरण विधियाँ
ऊपर पहचाने गए किसी भी प्रकार के फ्रेम के भीतर, विभिन्न प्रकार के नमूने विधियों को व्यक्तिगत रूप से या संयोजन में नियोजित किया जा सकता है।आमतौर पर इन डिजाइनों के बीच विकल्प को प्रभावित करने वाले कारकों में शामिल हैं:
 * फ्रेम की प्रकृति और गुणवत्ता
 * फ्रेम पर इकाइयों के बारे में सहायक जानकारी की उपलब्धता
 * सटीकता की आवश्यकताएं, और सटीकता को मापने की आवश्यकता
 * क्या नमूने का विस्तृत विश्लेषण अपेक्षित है
 * लागत/परिचालन चिंताएं

 सिंपल रैंडम सैंपलिंग 
किसी दिए गए आकार के एक साधारण यादृच्छिक नमूने (SRS) में, एक नमूना फ्रेम के सभी सबसेट में चयनित होने की समान संभावना है। इस प्रकार फ्रेम के प्रत्येक तत्व में चयन की समान संभावना होती है: फ्रेम को विभाजित या विभाजन नहीं किया जाता है। इसके अलावा, किसी भी दिए गए तत्वों के पास किसी भी अन्य जोड़ी के रूप में चयन का एक ही मौका है (और इसी तरह ट्रिपल के लिए, और इसी तरह)। यह पूर्वाग्रह को कम करता है और परिणामों के विश्लेषण को सरल बनाता है। विशेष रूप से, नमूने के भीतर व्यक्तिगत परिणामों के बीच विचरण समग्र आबादी में विचरण का एक अच्छा संकेतक है, जो परिणामों की सटीकता का अनुमान लगाना अपेक्षाकृत आसान बनाता है।

सरल यादृच्छिक नमूनाकरण नमूने की त्रुटि के लिए असुरक्षित हो सकता है क्योंकि चयन की यादृच्छिकता के परिणामस्वरूप एक नमूना हो सकता है जो आबादी के मेकअप को प्रतिबिंबित नहीं करता है। उदाहरण के लिए, किसी दिए गए देश के दस लोगों का एक साधारण यादृच्छिक नमूना औसतन पांच पुरुषों और पांच महिलाओं का उत्पादन करेगा, लेकिन किसी भी परीक्षण में एक सेक्स का प्रतिनिधित्व करने और दूसरे को कम करने की संभावना है। व्यवस्थित और स्तरीकृत तकनीक एक अधिक प्रतिनिधि नमूने चुनने के लिए आबादी के बारे में जानकारी का उपयोग करके इस समस्या को दूर करने का प्रयास करती है।

इसके अलावा, एक बड़ी लक्ष्य आबादी से नमूना लेते समय सरल यादृच्छिक नमूना बोझिल और थकाऊ हो सकता है। कुछ मामलों में, जांचकर्ता आबादी के उपसमूहों के लिए विशिष्ट शोध प्रश्नों में रुचि रखते हैं। उदाहरण के लिए, शोधकर्ताओं को यह जांचने में रुचि हो सकती है कि क्या नौकरी के प्रदर्शन के भविष्यवक्ता के रूप में संज्ञानात्मक क्षमता नस्लीय समूहों में समान रूप से लागू होती है। सरल यादृच्छिक नमूना इस स्थिति में शोधकर्ताओं की जरूरतों को समायोजित नहीं कर सकता है, क्योंकि यह आबादी के उप -समूह प्रदान नहीं करता है, और अन्य नमूनाकरण रणनीतियों, जैसे कि स्तरीकृत नमूनाकरण, इसके बजाय उपयोग किया जा सकता है।

व्यवस्थित नमूनाकरण
व्यवस्थित नमूनाकरण (जिसे अंतराल नमूनाकरण के रूप में भी जाना जाता है) कुछ आदेश योजना के अनुसार अध्ययन की आबादी की व्यवस्था पर निर्भर करता है और फिर उस आदेशित सूची के माध्यम से नियमित अंतराल पर तत्वों का चयन करता है। व्यवस्थित नमूने में एक यादृच्छिक शुरुआत शामिल होती है और फिर तब से प्रत्येक kth तत्व के चयन के साथ आगे बढ़ती है। इस मामले में, k = (जनसंख्या आकार/नमूना आकार)। यह महत्वपूर्ण है कि प्रारंभिक बिंदु स्वचालित रूप से सूची में पहला नहीं है, लेकिन इसके बजाय सूची में पहले से पहले से केटीएच तत्व के भीतर से बेतरतीब ढंग से चुना जाता है। एक सरल उदाहरण टेलीफोन निर्देशिका से प्रत्येक 10 वें नाम का चयन करना होगा (एक 'प्रत्येक 10 वां' नमूना, जिसे '10 के स्किप के साथ नमूनाकरण' के रूप में भी जाना जाता है)।

जब तक शुरुआती बिंदु यादृच्छिक है, तब तक व्यवस्थित नमूना एक प्रकार की संभावना नमूनाकरण है। इसे लागू करना आसान है और प्रेरित स्तरीकरण इसे कुशल बना सकता है, यदि चर जिसके द्वारा सूची का आदेश दिया गया है, वह ब्याज के चर के साथ सहसंबद्ध है। 'हर 10 वीं' नमूना डेटाबेस से कुशल नमूने के लिए विशेष रूप से उपयोगी है।

उदाहरण के लिए, मान लीजिए कि हम एक लंबी सड़क के लोगों का नमूना लेना चाहते हैं जो एक गरीब क्षेत्र (हाउस नंबर 1) में शुरू होता है और एक महंगे जिले (हाउस नंबर 1000) में समाप्त होता है। इस गली से पते का एक सरल यादृच्छिक चयन उच्च अंत से बहुत अधिक और बहुत कम अंत (या इसके विपरीत) से बहुत कम हो सकता है, जिससे एक अप्रमाणिक नमूना होता है। सड़क के साथ प्रत्येक 10 वीं स्ट्रीट नंबर का चयन करना (जैसे) यह सुनिश्चित करता है कि इन सभी जिलों का प्रतिनिधित्व करते हुए, नमूना सड़क की लंबाई के साथ समान रूप से फैला हुआ है। (ध्यान दें कि यदि हम हमेशा #1 पर शुरू करते हैं और #991 पर समाप्त होते हैं, तो नमूना कम अंत की ओर थोड़ा पक्षपाती है; #1 और #10 के बीच की शुरुआत को यादृच्छिक रूप से चुनकर, यह पूर्वाग्रह समाप्त हो जाता है।)

हालांकि, व्यवस्थित नमूना विशेष रूप से सूची में आवधिकता के लिए कमजोर है। यदि आवधिकता मौजूद है और अवधि का उपयोग किए गए अंतराल का एक बहु या कारक है, तो नमूना विशेष रूप से समग्र आबादी के लिए अप्रभावी होने की संभावना है, जिससे योजना सरल यादृच्छिक नमूने की तुलना में कम सटीक हो जाती है।

उदाहरण के लिए, एक ऐसी सड़क पर विचार करें जहां विषम संख्या वाले घर सड़क के उत्तर (महंगे) की ओर हैं, और सम-संख्या वाले घर सभी दक्षिण (सस्ते) तरफ हैं। ऊपर दी गई नमूना योजना के तहत, एक प्रतिनिधि नमूना प्राप्त करना असंभव है; या तो सैंपल किए गए घरों में सभी विषम संख्या वाले, महंगे पक्ष से होंगे, या वे सभी समान-संख्या वाले, सस्ते पक्ष से होंगे, जब तक कि शोधकर्ता को इस पूर्वाग्रह का पिछला ज्ञान नहीं है और एक स्किप का उपयोग करके इसे बचता है जो कूदना सुनिश्चित करता है दोनों पक्षों (किसी भी विषम संख्या वाले स्किप) के बीच।

व्यवस्थित नमूने का एक और दोष यह है कि परिदृश्यों में भी जहां यह एसआरएस की तुलना में अधिक सटीक है, इसके सैद्धांतिक गुणों को उस सटीकता को निर्धारित करना मुश्किल हो जाता है। (ऊपर दिए गए व्यवस्थित नमूने के दो उदाहरणों में, संभावित नमूनाकरण त्रुटि का अधिकांश हिस्सा पड़ोसी घरों के बीच भिन्नता के कारण है - लेकिन क्योंकि यह विधि कभी भी दो पड़ोसी घरों का चयन नहीं करती है, नमूना हमें उस भिन्नता के बारे में कोई जानकारी नहीं देगा।)

जैसा कि ऊपर वर्णित है, व्यवस्थित नमूनाकरण एक ईपीएस विधि है, क्योंकि सभी तत्वों में चयन की समान संभावना है (दिए गए उदाहरण में, दस में से एक)। यह 'सरल यादृच्छिक नमूना' नहीं है क्योंकि एक ही आकार के अलग -अलग सबसेट में अलग -अलग चयन संभावनाएं हैं - उदा। सेट {4,14,24, ..., 994} में चयन की एक-दस संभावना है, लेकिन सेट {4,13,24,34, ...} में चयन की शून्य संभावना है।

व्यवस्थित नमूने को गैर-ईपीएस दृष्टिकोण के लिए भी अनुकूलित किया जा सकता है; एक उदाहरण के लिए, नीचे पीपीएस नमूनों की चर्चा देखें।

स्तरीकृत नमूनाकरण
जब आबादी कई अलग -अलग श्रेणियों को गले लगाती है, तो इन श्रेणियों द्वारा फ्रेम को अलग -अलग स्तरों में व्यवस्थित किया जा सकता है।प्रत्येक स्ट्रैटम को तब एक स्वतंत्र उप-जनसंख्या के रूप में नमूना लिया जाता है, जिसमें से व्यक्तिगत तत्वों को यादृच्छिक रूप से चुना जा सकता है। जनसंख्या के आकार के लिए इस यादृच्छिक चयन (या नमूने) के आकार के अनुपात को एक नमूना अंश कहा जाता है। स्तरीकृत नमूने के लिए कई संभावित लाभ हैं।

सबसे पहले, आबादी को अलग -अलग, स्वतंत्र स्तर में विभाजित करने से शोधकर्ताओं को विशिष्ट उपसमूहों के बारे में निष्कर्ष निकालने में सक्षम हो सकता है जो अधिक सामान्यीकृत यादृच्छिक नमूने में खो सकते हैं।

दूसरा, एक स्तरीकृत नमूनाकरण विधि का उपयोग करने से अधिक कुशल सांख्यिकीय अनुमान हो सकते हैं (बशर्ते कि स्ट्रेटा को नमूने की उपलब्धता के बजाय प्रश्न में मानदंड के लिए प्रासंगिकता के आधार पर चुना जाता है)। यहां तक ​​कि अगर एक स्तरीकृत नमूनाकरण दृष्टिकोण सांख्यिकीय दक्षता में वृद्धि नहीं करता है, तो इस तरह की रणनीति के परिणामस्वरूप सरल यादृच्छिक नमूने की तुलना में कम दक्षता नहीं होगी, बशर्ते कि प्रत्येक स्ट्रैटम आबादी में समूह के आकार के लिए आनुपातिक हो।

तीसरा, यह कभी-कभी मामला होता है कि डेटा समग्र आबादी की तुलना में आबादी के भीतर व्यक्तिगत, पूर्व-मौजूदा स्ट्रैट के लिए अधिक आसानी से उपलब्ध होता है; ऐसे मामलों में, एक स्तरीकृत नमूनाकरण दृष्टिकोण का उपयोग करना समूहों में डेटा एकत्र करने की तुलना में अधिक सुविधाजनक हो सकता है (हालांकि यह संभावित रूप से मानदंड-प्रासंगिक स्ट्रैट का उपयोग करने के पहले से नोट किए गए महत्व के साथ बाधाओं पर हो सकता है)।

अंत में, चूंकि प्रत्येक स्ट्रैटम को एक स्वतंत्र आबादी के रूप में माना जाता है, इसलिए अलग-अलग नमूने के दृष्टिकोण को अलग-अलग स्ट्रैट पर लागू किया जा सकता है, संभावित रूप से शोधकर्ताओं को जनसंख्या के भीतर प्रत्येक पहचाने गए उपसमूह के लिए सर्वोत्तम अनुकूल (या सबसे अधिक लागत प्रभावी) का उपयोग करने के लिए सक्षम किया जाता है।

हालांकि, स्तरीकृत नमूने का उपयोग करने के लिए कुछ संभावित कमियां हैं। सबसे पहले, स्ट्रेटा की पहचान करना और इस तरह के दृष्टिकोण को लागू करना नमूना चयन की लागत और जटिलता को बढ़ा सकता है, साथ ही जनसंख्या अनुमानों की बढ़ती जटिलता के लिए अग्रणी हो सकता है। दूसरा, कई मानदंडों की जांच करते समय, स्तरीकरण चर कुछ से संबंधित हो सकते हैं, लेकिन दूसरों के लिए नहीं, आगे डिजाइन को जटिल कर सकते हैं, और संभावित रूप से स्ट्रैटा की उपयोगिता को कम कर सकते हैं। अंत में, कुछ मामलों में (जैसे कि बड़ी संख्या में स्ट्रैटा के साथ डिजाइन, या प्रति समूह एक निर्दिष्ट न्यूनतम नमूना आकार के साथ), स्तरीकृत नमूने को संभावित रूप से अन्य तरीकों की तुलना में एक बड़े नमूने की आवश्यकता हो सकती है (हालांकि ज्यादातर मामलों में, आवश्यक नमूना आकार सरल यादृच्छिक नमूने के लिए आवश्यक से बड़ा नहीं होगा)।


 * एक स्तरीकृत नमूनाकरण दृष्टिकोण सबसे प्रभावी है जब तीन स्थितियों को पूरा किया जाता है:
 * 1) स्ट्रेटा के भीतर परिवर्तनशीलता कम से कम है
 * 2) स्ट्रैट के बीच परिवर्तनशीलता अधिकतम होती है
 * 3) जिन चर पर आबादी को स्तरीकृत किया जाता है, वे वांछित आश्रित चर के साथ दृढ़ता से सहसंबद्ध हैं।


 * अन्य नमूने विधियों पर लाभ
 * 1) महत्वपूर्ण उप -योगों पर ध्यान केंद्रित करता है और अप्रासंगिक लोगों को अनदेखा करता है।
 * 2) विभिन्न उप -योगों के लिए विभिन्न नमूनाकरण तकनीकों का उपयोग करने की अनुमति देता है।
 * 3) अनुमान की सटीकता/दक्षता में सुधार करता है।
 * 4) आकार में व्यापक रूप से भिन्न होने वाले स्ट्रैट से समान संख्याओं का नमूना करके स्ट्रैट के बीच अंतर के परीक्षणों की सांख्यिकीय शक्ति के अधिक संतुलन की अनुमति देता है।


 * नुकसान
 * 1) प्रासंगिक स्तरीकरण चर के चयन की आवश्यकता है जो मुश्किल हो सकता है।
 * 2) तब उपयोगी नहीं है जब कोई सजातीय उपसमूह नहीं हैं।
 * 3) लागू करने के लिए महंगा हो सकता है।

स्तरीकरण को कभी -कभी पोस्टस्ट्रैटिफिकेशन नामक एक प्रक्रिया में नमूनाकरण चरण के बाद पेश किया जाता है। यह दृष्टिकोण आम तौर पर एक उपयुक्त स्तरीकरण चर के पूर्व ज्ञान की कमी के कारण लागू किया जाता है या जब प्रयोगकर्ता के पास नमूनाकरण चरण के दौरान एक स्तरीकरण चर बनाने के लिए आवश्यक जानकारी का अभाव होता है।यद्यपि विधि पोस्ट हॉक दृष्टिकोणों के नुकसान के लिए अतिसंवेदनशील है, यह सही स्थिति में कई लाभ प्रदान कर सकता है।कार्यान्वयन आमतौर पर एक साधारण यादृच्छिक नमूने का अनुसरण करता है।एक सहायक चर पर स्तरीकरण के लिए अनुमति देने के अलावा, पोस्टस्ट्रैटिफिकेशन का उपयोग वेटिंग को लागू करने के लिए किया जा सकता है, जो एक नमूने के अनुमानों की सटीकता में सुधार कर सकता है।
 * पोस्टस्ट्रैटिफिकेशन

चॉइस-आधारित सैंपलिंग स्तरीकृत नमूनाकरण रणनीतियों में से एक है।पसंद-आधारित नमूने में, डेटा को लक्ष्य पर स्तरीकृत किया जाता है और प्रत्येक स्ट्रैटम से एक नमूना लिया जाता है ताकि नमूने में दुर्लभ लक्ष्य वर्ग का अधिक प्रतिनिधित्व किया जाए।मॉडल तब इस पक्षपाती नमूने पर बनाया गया है।लक्ष्य पर इनपुट चर के प्रभावों को अक्सर पसंद-आधारित नमूने के साथ अधिक सटीकता के साथ अनुमानित किया जाता है, तब भी जब एक यादृच्छिक नमूने की तुलना में एक छोटा समग्र नमूना आकार लिया जाता है।परिणामों को आमतौर पर ओवरसाम्पलिंग के लिए सही करने के लिए समायोजित किया जाना चाहिए।
 * oversampling

संभाव्यता-प्रोप्रोटेशनल-टू-साइज़ सैंपलिंग
कुछ मामलों में नमूना डिजाइनर के पास एक सहायक चर या आकार के उपाय तक पहुंच होती है, माना जाता है कि आबादी में प्रत्येक तत्व के लिए ब्याज के चर से संबंधित माना जाता है। इन आंकड़ों का उपयोग नमूना डिजाइन में सटीकता में सुधार करने के लिए किया जा सकता है। एक विकल्प स्तरीकरण के लिए एक आधार के रूप में सहायक चर का उपयोग करना है, जैसा कि ऊपर चर्चा की गई है।

एक अन्य विकल्प आकार ('पीपीएस') नमूने के लिए आनुपातिक आनुपातिक है, जिसमें प्रत्येक तत्व के लिए चयन संभावना इसके आकार के उपाय के लिए आनुपातिक है, अधिकतम 1. तक। एक साधारण पीपीएस डिजाइन में, ये चयन संभावनाएं तब कर सकती हैं। पॉइसन सैंपलिंग के लिए आधार के रूप में उपयोग किया जाए। हालांकि, इसमें चर नमूना आकार का दोष है, और जनसंख्या के विभिन्न हिस्से अभी भी चयन में मौका भिन्नता के कारण अधिक या अंडर-प्रतिनिधित्व किए जा सकते हैं।

व्यवस्थित नमूनाकरण सिद्धांत का उपयोग आकार के नमूने के लिए एक संभावना आनुपातिक बनाने के लिए किया जा सकता है। यह एक एकल नमूना इकाई के रूप में आकार चर के भीतर प्रत्येक गणना का इलाज करके किया जाता है। नमूनों को तब आकार चर के भीतर इन गणनाओं के बीच भी अंतराल का चयन करके पहचाना जाता है। इस विधि को कभी-कभी ऑडिट या फोरेंसिक सैंपलिंग के मामले में पीपीएस-अनुक्रमिक या मौद्रिक इकाई के नमूने कहा जाता है।

उदाहरण: मान लीजिए कि हमारे पास 150, 180, 200, 220, 220, 260, और & nbsp; क्रमशः 490 छात्रों (कुल 1500 छात्रों) की आबादी वाले छह स्कूल हैं, और हम छात्र की आबादी को आकार तीन के पीपीएस नमूने के आधार के रूप में उपयोग करना चाहते हैं। ऐसा करने के लिए, हम पहले स्कूल नंबरों को 1 & nbsp; to & nbsp; 150, दूसरा स्कूल 151 से 330 & nbsp; (= & nbsp; 150 & nbsp;+& nbsp; 180) आवंटित कर सकते हैं (1011 से & nbsp; 1500)। हम तब 1 और 500 (& nbsp; 1500/3 के बराबर) के बीच एक यादृच्छिक शुरुआत उत्पन्न करते हैं और 500 के गुणकों द्वारा स्कूल की आबादी के माध्यम से गिनती करते हैं। यदि हमारी यादृच्छिक शुरुआत 137 थी, तो हम उन स्कूलों का चयन करेंगे जिन्हें 137, 637 की संख्या आवंटित की गई है, 637, 637, 637, 637, 637, 637 और & nbsp; 1137, यानी पहला, चौथा और छठा स्कूल।

पीपीएस दृष्टिकोण बड़े तत्वों पर नमूना केंद्रित करके किसी दिए गए नमूने के आकार के लिए सटीकता में सुधार कर सकता है जो जनसंख्या के अनुमानों पर सबसे अधिक प्रभाव डालता है। पीपीएस सैंपलिंग का उपयोग आमतौर पर व्यवसायों के सर्वेक्षणों के लिए किया जाता है, जहां तत्व का आकार बहुत भिन्न होता है और सहायक जानकारी अक्सर उपलब्ध होती है & nbsp;-उदाहरण के लिए, होटलों में खर्च किए गए अतिथि-रातों की संख्या को मापने का प्रयास करने वाला एक सर्वेक्षण प्रत्येक होटल के कमरों की संख्या का उपयोग सहायक के रूप में कर सकता है। चर। कुछ मामलों में, अधिक वर्तमान अनुमानों का उत्पादन करने का प्रयास करते समय ब्याज के चर के एक पुराने माप को सहायक चर के रूप में उपयोग किया जा सकता है।

क्लस्टर नमूनाकरण


कभी-कभी समूहों ('क्लस्टर') में उत्तरदाताओं का चयन करना अधिक लागत प्रभावी होता है। नमूना अक्सर भूगोल, या समय अवधि तक क्लस्टर किया जाता है। (लगभग सभी नमूने समय में कुछ अर्थों में 'क्लस्टर' होते हैं - हालांकि यह शायद ही कभी विश्लेषण में ध्यान में रखा जाता है।) उदाहरण के लिए, यदि किसी शहर के भीतर घरों का सर्वेक्षण करते हैं, चयनित ब्लॉक।

क्लस्टरिंग यात्रा और प्रशासनिक लागतों को कम कर सकती है। ऊपर दिए गए उदाहरण में, एक साक्षात्कारकर्ता प्रत्येक घर के लिए एक अलग ब्लॉक में ड्राइव करने के बजाय एक ब्लॉक में कई घरों में जाने के लिए एक एकल यात्रा कर सकता है।

इसका मतलब यह भी है कि किसी को लक्ष्य आबादी में सभी तत्वों को सूचीबद्ध करने के लिए एक नमूना फ्रेम की आवश्यकता नहीं है। इसके बजाय, क्लस्टर को क्लस्टर-स्तरीय फ्रेम से चुना जा सकता है, जिसमें केवल चयनित क्लस्टर के लिए बनाया गया तत्व-स्तरीय फ्रेम होता है। ऊपर दिए गए उदाहरण में, नमूने को केवल प्रारंभिक चयन के लिए एक ब्लॉक-स्तरीय शहर के नक्शे की आवश्यकता होती है, और फिर पूरे शहर के घरेलू स्तर के नक्शे के बजाय 100 चयनित ब्लॉकों के एक घरेलू स्तर का नक्शा।

क्लस्टर सैंपलिंग (जिसे क्लस्टर सैंपलिंग के रूप में भी जाना जाता है) आम तौर पर सरल यादृच्छिक नमूने के ऊपर नमूना अनुमानों की परिवर्तनशीलता को बढ़ाता है, यह इस बात पर निर्भर करता है कि क्लस्टर के भीतर क्लस्टर भिन्नता की तुलना में क्लस्टर एक दूसरे के बीच कैसे भिन्न होते हैं। इस कारण से, क्लस्टर सैंपलिंग को सटीकता के समान स्तर को प्राप्त करने के लिए एसआरएस की तुलना में एक बड़े नमूने की आवश्यकता होती है - लेकिन क्लस्टरिंग से लागत बचत अभी भी इसे एक सस्ता विकल्प बना सकती है।

क्लस्टर सैंपलिंग को आमतौर पर मल्टीस्टेज सैंपलिंग के रूप में लागू किया जाता है। यह क्लस्टर सैंपलिंग का एक जटिल रूप है जिसमें दो या दो से अधिक स्तरों की इकाइयाँ एक को एक में एम्बेडेड करती हैं। पहले चरण में उन समूहों का निर्माण होता है जिनका उपयोग नमूना लेने के लिए किया जाएगा। दूसरे चरण में, प्राथमिक इकाइयों का एक नमूना प्रत्येक क्लस्टर से बेतरतीब ढंग से चुना जाता है (सभी चयनित समूहों में निहित सभी इकाइयों का उपयोग करने के बजाय)। निम्नलिखित चरणों में, उन चयनित समूहों में से प्रत्येक में, इकाइयों के अतिरिक्त नमूने चुने जाते हैं, और इसी तरह। इस प्रक्रिया के अंतिम चरण में चयनित सभी अंतिम इकाइयों (उदाहरण के लिए, उदाहरण के लिए) का सर्वेक्षण किया जाता है। यह तकनीक, इस प्रकार, अनिवार्य रूप से पूर्ववर्ती यादृच्छिक नमूनों के यादृच्छिक उपसमूह लेने की प्रक्रिया है।

मल्टीस्टेज सैंपलिंग नमूने की लागत को काफी हद तक कम कर सकती है, जहां पूर्ण जनसंख्या सूची का निर्माण करने की आवश्यकता होगी (इससे पहले कि अन्य नमूनाकरण विधियों को लागू किया जा सके)। चयनित नहीं होने वाले समूहों का वर्णन करने में शामिल काम को समाप्त करके, मल्टीस्टेज नमूनाकरण पारंपरिक क्लस्टर नमूने से जुड़ी बड़ी लागतों को कम कर सकता है। हालांकि, प्रत्येक नमूना पूरी आबादी का पूर्ण प्रतिनिधि नहीं हो सकता है।

कोटा नमूना
कोटा नमूने में, जनसंख्या को पहले पारस्परिक रूप से अनन्य उप-समूहों में विभाजित किया जाता है, जैसे कि स्तरीकृत नमूने में।तब निर्णय का उपयोग एक निर्दिष्ट अनुपात के आधार पर प्रत्येक खंड से विषयों या इकाइयों का चयन करने के लिए किया जाता है।उदाहरण के लिए, एक साक्षात्कारकर्ता को 45 से 60 वर्ष की आयु के बीच 200 महिलाओं और 300 पुरुषों का नमूना लेने के लिए कहा जा सकता है।

यह यह दूसरा कदम है जो तकनीक को गैर-प्रतिकृति नमूने में से एक बनाता है।कोटा नमूने में नमूना का चयन गैर-यादृच्छिक है।उदाहरण के लिए, साक्षात्कारकर्ताओं को उन लोगों का साक्षात्कार करने के लिए लुभाया जा सकता है जो सबसे अधिक सहायक दिखते हैं।समस्या यह है कि ये नमूने पक्षपाती हो सकते हैं क्योंकि सभी को चयन का मौका नहीं मिलता है।यह यादृच्छिक तत्व इसकी सबसे बड़ी कमजोरी है और कोटा बनाम संभावना कई वर्षों से विवाद की बात है।

मिनिमैक्स सैंपलिंग
असंतुलित डेटासेट में, जहां नमूना अनुपात जनसंख्या के आंकड़ों का पालन नहीं करता है, कोई भी डेटासेट को एक रूढ़िवादी तरीके से मिनीमैक्स सैंपलिंग नामक कर सकता है।मिनिमैक्स सैंपलिंग का मूल एंडरसन मिनिमैक्स अनुपात में है जिसका मूल्य 0.5 साबित होता है: एक बाइनरी वर्गीकरण में, वर्ग-नमूना आकारों को समान रूप से चुना जाना चाहिए।यह अनुपात केवल गौसियन वितरण के साथ एलडीए क्लासिफायरर की धारणा के तहत मिनिमैक्स अनुपात साबित किया जा सकता है।मिनिमैक्स सैंपलिंग की धारणा हाल ही में वर्गीकरण नियमों के एक सामान्य वर्ग के लिए विकसित की गई है, जिसे क्लास-वार स्मार्ट क्लासिफायर कहा जाता है।इस मामले में, कक्षाओं के नमूने अनुपात का चयन किया जाता है ताकि वर्ग पूर्व संभावनाओं के लिए सभी संभावित जनसंख्या आँकड़ों पर सबसे खराब केस क्लासिफायर त्रुटि, सबसे अच्छा होगा।

आकस्मिक नमूना
आकस्मिक नमूनाकरण (कभी -कभी हड़पने, सुविधा या अवसर के नमूने के रूप में जाना जाता है) एक प्रकार का गैर -अप्रोचता नमूनाकरण होता है जिसमें आबादी के उस हिस्से से निकाला जा रहा नमूना शामिल होता है जो हाथ के करीब होता है। अर्थात्, एक आबादी का चयन किया जाता है क्योंकि यह आसानी से उपलब्ध और सुविधाजनक है। यह व्यक्ति से मिलने या नमूने में किसी व्यक्ति को शामिल करने के माध्यम से हो सकता है जब कोई उनसे मिलता है या उन्हें तकनीकी साधनों जैसे कि इंटरनेट या फोन के माध्यम से खोजकर चुना जाता है। इस तरह के नमूने का उपयोग करने वाले शोधकर्ता इस नमूने से कुल आबादी के बारे में वैज्ञानिक रूप से सामान्यीकरण नहीं कर सकते हैं क्योंकि यह पर्याप्त प्रतिनिधि नहीं होगा। जैसे ऐसे क्षेत्र में समाज के अन्य सदस्य, यदि सर्वेक्षण को दिन के अलग -अलग समय और प्रति सप्ताह कई बार आयोजित किया जाना था। इस प्रकार का नमूना पायलट परीक्षण के लिए सबसे उपयोगी है। सुविधा नमूनों का उपयोग करने वाले शोधकर्ताओं के लिए कई महत्वपूर्ण विचारों में शामिल हैं:


 * 1) क्या अनुसंधान डिजाइन या प्रयोग के भीतर नियंत्रण हैं जो एक गैर-यादृच्छिक सुविधा नमूने के प्रभाव को कम करने के लिए काम कर सकते हैं, जिससे परिणाम यह सुनिश्चित करते हैं कि परिणाम जनसंख्या का अधिक प्रतिनिधि होंगे?
 * 2) क्या यह मानने का अच्छा कारण है कि एक विशेष सुविधा का नमूना एक ही आबादी से यादृच्छिक नमूने की तुलना में अलग -अलग प्रतिक्रिया या व्यवहार करना चाहिए?
 * 3) क्या शोध द्वारा पूछा जा रहा है कि एक सुविधा नमूने का उपयोग करके पर्याप्त रूप से उत्तर दिया जा सकता है?

सामाजिक विज्ञान अनुसंधान में, स्नोबॉल नमूना एक समान तकनीक है, जहां मौजूदा अध्ययन विषयों का उपयोग नमूने में अधिक विषयों को भर्ती करने के लिए किया जाता है। स्नोबॉल के नमूने के कुछ वेरिएंट, जैसे कि प्रतिवादी संचालित नमूनाकरण, चयन संभावनाओं की गणना की अनुमति देते हैं और कुछ शर्तों के तहत संभाव्यता नमूनाकरण तरीके हैं।

स्वैच्छिक नमूनाकरण
स्वैच्छिक नमूनाकरण विधि एक प्रकार का गैर-प्रक्रिया नमूना है।स्वयंसेवक एक सर्वेक्षण पूरा करने के लिए चुनते हैं।

सोशल मीडिया में विज्ञापनों के माध्यम से स्वयंसेवकों को आमंत्रित किया जा सकता है। विज्ञापनों के लिए लक्ष्य आबादी को सामाजिक माध्यम द्वारा प्रदान किए गए उपकरणों का उपयोग करके स्थान, आयु, लिंग, आय, व्यवसाय, शिक्षा, या हितों जैसी विशेषताओं द्वारा चुना जा सकता है।विज्ञापन में अनुसंधान और एक सर्वेक्षण के लिंक के बारे में एक संदेश शामिल हो सकता है।लिंक का पालन करने और सर्वेक्षण पूरा करने के बाद, स्वयंसेवक नमूना आबादी में शामिल किए जाने वाले डेटा को प्रस्तुत करता है।यह विधि एक वैश्विक आबादी तक पहुंच सकती है लेकिन अभियान बजट तक सीमित है।आमंत्रित आबादी के बाहर स्वयंसेवकों को भी नमूने में शामिल किया जा सकता है।

इस नमूने से सामान्यीकरण करना मुश्किल है क्योंकि यह कुल आबादी का प्रतिनिधित्व नहीं कर सकता है।अक्सर, स्वयंसेवकों की सर्वेक्षण के मुख्य विषय में एक मजबूत रुचि होती है।

लाइन-इंटरसेप्ट सैंपलिंग
लाइन-इंटरसेप्ट सैंपलिंग एक ऐसे क्षेत्र में नमूनाकरण तत्वों की एक विधि है, जिसके द्वारा एक तत्व का नमूना लिया जाता है यदि एक चुना लाइन सेगमेंट, जिसे ट्रांसएक्ट कहा जाता है, तत्व को इंटरसेक्ट करता है।

पैनल सैंपलिंग
पैनल सैंपलिंग पहले एक यादृच्छिक नमूनाकरण विधि के माध्यम से प्रतिभागियों के एक समूह का चयन करने की विधि है और फिर उस समूह के लिए (संभावित रूप से समान) जानकारी के लिए कई बार कई बार पूछ रहा है।इसलिए, प्रत्येक प्रतिभागी का साक्षात्कार दो या अधिक समय बिंदुओं पर किया जाता है;डेटा संग्रह की प्रत्येक अवधि को एक लहर कहा जाता है।यह विधि 1938 में समाजशास्त्री पॉल लज़र्सफेल्ड द्वारा राजनीतिक अभियानों का अध्ययन करने के साधन के रूप में विकसित की गई थी। यह अनुदैर्ध्य नमूनाकरण-विधि आबादी में परिवर्तन के अनुमानों की अनुमति देता है, उदाहरण के लिए, साप्ताहिक खाद्य व्यय के लिए नौकरी के तनाव के लिए पुरानी बीमारी के संबंध में।पैनल सैंपलिंग का उपयोग शोधकर्ताओं को उम्र के कारण व्यक्ति के स्वास्थ्य परिवर्तनों के बारे में सूचित करने के लिए भी किया जा सकता है या निरंतर निर्भर चर जैसे स्पूसल इंटरैक्शन में परिवर्तन को समझाने में मदद करने के लिए। पैनल डेटा का विश्लेषण करने के कई प्रस्तावित तरीके हैं, जिनमें मनोवा, ग्रोथ कर्व्स और पिछड़ प्रभावों के साथ संरचनात्मक समीकरण मॉडलिंग शामिल हैं।

स्नोबॉल सैंपलिंग
स्नोबॉल के नमूने में प्रारंभिक उत्तरदाताओं का एक छोटा समूह ढूंढना और अधिक उत्तरदाताओं की भर्ती के लिए उनका उपयोग करना शामिल है।यह उन मामलों में विशेष रूप से उपयोगी है जहां आबादी छिपी हुई है या उनकी गणना करना मुश्किल है।

सैद्धांतिक नमूना
सैद्धांतिक नमूनाकरण तब होता है जब नमूनों को क्षेत्र की गहरी समझ विकसित करने या सिद्धांतों को विकसित करने के लक्ष्य के साथ अब तक एकत्र किए गए डेटा के परिणामों के आधार पर चुना जाता है।चरम या बहुत विशिष्ट मामलों का चयन किया जा सकता है ताकि संभावना को अधिकतम किया जा सके कि एक घटना वास्तव में अवलोकन योग्य होगी।

चयनित इकाइयों का प्रतिस्थापन
नमूनाकरण योजनाएं प्रतिस्थापन के बिना हो सकती हैं ('वॉर' & nbsp; - किसी भी तत्व को एक ही नमूने में एक से अधिक बार नहीं चुना जा सकता है) या प्रतिस्थापन के साथ ('wr' & nbsp; - एक तत्व एक नमूने में कई बार दिखाई दे सकता है)।उदाहरण के लिए, यदि हम मछली पकड़ते हैं, उन्हें मापते हैं, और नमूने के साथ जारी रखने से पहले तुरंत उन्हें पानी में वापस कर देते हैं, तो यह एक डब्ल्यूआर डिजाइन है, क्योंकि हम एक ही मछली को एक से अधिक बार पकड़ने और मापने को समाप्त कर सकते हैं।हालांकि, अगर हम मछली को पानी या टैग पर नहीं लौटाते हैं और इसे पकड़ने के बाद प्रत्येक मछली को छोड़ते हैं, तो यह एक खराब डिजाइन बन जाता है।

नमूना आकार निर्धारण
नमूना आकार निर्धारित करने के लिए सूत्र, टेबल और पावर फ़ंक्शन चार्ट अच्छी तरह से ज्ञात दृष्टिकोण हैं।

नमूना आकार तालिकाओं का उपयोग करने के लिए चरण

 * 1) ब्याज के प्रभाव आकार, α, और β को पोस्ट करें।
 * 2) नमूना आकार तालिका की जाँच करें ## चयनित α के अनुरूप तालिका का चयन करें
 * 3) वांछित शक्ति के अनुरूप पंक्ति का पता लगाएं
 * 4) अनुमानित प्रभाव आकार के अनुरूप कॉलम का पता लगाएं।
 * 5) कॉलम और पंक्ति का चौराहा न्यूनतम नमूना आकार की आवश्यकता है।

नमूना और डेटा संग्रह
अच्छे डेटा संग्रह में शामिल हैं:
 * परिभाषित नमूनाकरण प्रक्रिया के बाद
 * डेटा को समय क्रम में रखना
 * टिप्पणियों और अन्य प्रासंगिक घटनाओं पर ध्यान देना
 * गैर-प्रतिक्रियाओं को रिकॉर्ड करना

नमूने के अनुप्रयोग
नमूनाकरण पूरी आबादी की विशेषताओं का अनुमान लगाने के लिए बड़े डेटा सेट के भीतर से सही डेटा बिंदुओं के चयन को सक्षम करता है।उदाहरण के लिए, हर दिन लगभग 600 मिलियन ट्वीट उत्पादित होते हैं।दिन के दौरान चर्चा किए गए विषयों को निर्धारित करने के लिए उन सभी को देखना आवश्यक नहीं है, और न ही प्रत्येक विषय पर भावना को निर्धारित करने के लिए सभी ट्वीट्स को देखना आवश्यक है।ट्विटर डेटा के नमूने के लिए एक सैद्धांतिक सूत्रीकरण विकसित किया गया है।

विभिन्न प्रकार के संवेदी डेटा के निर्माण में जैसे ध्वनिकी, कंपन, दबाव, वर्तमान, वोल्टेज और नियंत्रक डेटा कम समय के अंतराल पर उपलब्ध हैं।डाउन-टाइम की भविष्यवाणी करने के लिए सभी डेटा को देखना आवश्यक नहीं हो सकता है लेकिन एक नमूना पर्याप्त हो सकता है।

नमूना सर्वेक्षण में त्रुटियां
सर्वेक्षण के परिणाम आमतौर पर कुछ त्रुटि के अधीन होते हैं।कुल त्रुटियों को नमूने की त्रुटियों और गैर-नमूनाकरण त्रुटियों में वर्गीकृत किया जा सकता है।यहां त्रुटि में व्यवस्थित पूर्वाग्रह के साथ -साथ यादृच्छिक त्रुटियां भी शामिल हैं।

नमूना लेना त्रुटियां और पूर्वाग्रह
नमूना लेना और पूर्वाग्रह नमूना डिजाइन से प्रेरित हैं।वे सम्मिलित करते हैं:
 * 1) चयन पूर्वाग्रह: जब वास्तविक चयन संभावनाएं परिणामों की गणना करने में ग्रहण किए गए लोगों से भिन्न होती हैं।
 * 2) यादृच्छिक नमूनाकरण त्रुटि: यादृच्छिक रूप से चयनित नमूने में तत्वों के कारण परिणामों में यादृच्छिक भिन्नता।

नॉन-सैंपलिंग त्रुटि
गैर-सैंपलिंग त्रुटियां अन्य त्रुटियां हैं जो डेटा संग्रह, प्रसंस्करण या नमूना डिजाइन में समस्याओं के कारण अंतिम सर्वेक्षण अनुमानों को प्रभावित कर सकती हैं।ऐसी त्रुटियों में शामिल हो सकते हैं: नमूने के बाद, एक समीक्षा आयोजित की जानी चाहिए नमूने के बाद सटीक प्रक्रिया का पालन किया गया था, बजाय इसके कि किसी भी प्रभाव का अध्ययन करने के लिए, किसी भी विचलन के बाद के विश्लेषण पर हो सकता है।
 * 1) ओवर-कवरेज: जनसंख्या के बाहर से डेटा को शामिल करना
 * 2) अंडर-कवरेज: सैंपलिंग फ्रेम में आबादी में तत्व शामिल नहीं हैं।
 * 3) माप त्रुटि: उदा।जब उत्तरदाताओं ने एक प्रश्न को गलत समझा, या जवाब देना मुश्किल पाया
 * 4) प्रसंस्करण त्रुटि: डेटा कोडिंग में गलतियाँ
 * 5) गैर-प्रतिक्रिया या भागीदारी पूर्वाग्रह: सभी चयनित व्यक्तियों से पूर्ण डेटा प्राप्त करने में विफलता

एक विशेष समस्या में गैर-प्रतिक्रिया शामिल है।गैर-प्रतिक्रिया के दो प्रमुख प्रकार मौजूद हैं: * यूनिट नॉनसेप्स (सर्वेक्षण के किसी भी हिस्से के पूरा होने की कमी)
 * आइटम गैर-प्रतिक्रिया (सर्वेक्षण में प्रस्तुत या भागीदारी लेकिन सर्वेक्षण के एक या अधिक घटकों/प्रश्नों को पूरा करने में विफल)

सर्वेक्षण के नमूने में, नमूने के हिस्से के रूप में पहचाने गए कई व्यक्तियों में भाग लेने के लिए अनिच्छुक हो सकते हैं, भाग लेने का समय नहीं है (अवसर लागत), या सर्वेक्षण प्रशासक उनसे संपर्क करने में सक्षम नहीं हो सकते हैं।इस मामले में, उत्तरदाताओं और गैर -जिम्मेदारियों के बीच अंतर का खतरा है, जिससे जनसंख्या मापदंडों के पक्षपाती अनुमान हैं।यह अक्सर सर्वेक्षण डिजाइन में सुधार, प्रोत्साहन की पेशकश, और अनुवर्ती अध्ययनों का संचालन करके संबोधित किया जाता है जो अनुत्तरदायी से संपर्क करने और बाकी फ्रेम के साथ उनकी समानता और अंतर को चिह्नित करने के लिए एक बार-बार प्रयास करते हैं। प्रभाव को डेटा को भारित करके भी कम किया जा सकता है (जब जनसंख्या बेंचमार्क उपलब्ध हो) या अन्य प्रश्नों के उत्तर के आधार पर डेटा लगाकर।इंटरनेट के नमूने में विशेष रूप से एक समस्या है।इस समस्या के कारणों में अनुचित रूप से डिज़ाइन किए गए सर्वेक्षण शामिल हो सकते हैं, ओवर-सर्वाइविंग (या सर्वेक्षण थकान), और तथ्य यह है कि संभावित प्रतिभागियों के पास कई ई-मेल पते हो सकते हैं, जिनका वे अब और उपयोग नहीं करते हैं या नियमित रूप से जांच नहीं करते हैं।

सर्वेक्षण वजन
कई स्थितियों में नमूना अंश स्ट्रैटम द्वारा भिन्न हो सकता है और जनसंख्या का सही प्रतिनिधित्व करने के लिए डेटा को भारित करना होगा। इस प्रकार, उदाहरण के लिए, यूनाइटेड किंगडम में व्यक्तियों का एक साधारण यादृच्छिक नमूना कुछ दूरस्थ स्कॉटिश द्वीपों में शामिल नहीं हो सकता है जो नमूने के लिए महंगे रूप से महंगे होंगे। एक सस्ती विधि शहरी और ग्रामीण स्तर के साथ एक स्तरीकृत नमूने का उपयोग करने के लिए होगी। ग्रामीण नमूने को नमूने में कम प्रतिनिधित्व दिया जा सकता है, लेकिन क्षतिपूर्ति के लिए विश्लेषण में उचित रूप से भारित किया जा सकता है।

अधिक आम तौर पर, डेटा को आमतौर पर भारित किया जाना चाहिए यदि नमूना डिजाइन प्रत्येक व्यक्ति को चयनित होने का एक समान मौका नहीं देता है। उदाहरण के लिए, जब परिवारों के पास समान चयन संभावनाएं होती हैं, लेकिन एक व्यक्ति को प्रत्येक घर के भीतर से साक्षात्कार दिया जाता है, तो यह बड़े घरों के लोगों को साक्षात्कार के लिए एक छोटा मौका देता है। यह सर्वेक्षण भार का उपयोग करने के लिए जिम्मेदार हो सकता है। इसी तरह, एक से अधिक टेलीफोन लाइन वाले घरों में एक यादृच्छिक अंकों डायलिंग नमूने में चुने जाने की अधिक संभावना है, और वेट इसके लिए समायोजित कर सकते हैं।

वेट अन्य उद्देश्यों को भी पूरा कर सकते हैं, जैसे कि गैर-प्रतिक्रिया के लिए सही करने में मदद करना।

यादृच्छिक नमूने के उत्पादन के तरीके

 * यादृच्छिक संख्या तालिका
 * छद्म यादृच्छिक संख्या जनरेटर के लिए गणितीय एल्गोरिदम
 * फिजिकल रैंडमाइजेशन डिवाइस जैसे सिक्के, प्लेइंग कार्ड या परिष्कृत डिवाइस जैसे कि एर्नी

इतिहास
बहुत सारे का उपयोग करके यादृच्छिक नमूना एक पुराना विचार है, जिसका उल्लेख बाइबिल में कई बार किया गया है।1786 में पियरे साइमन लाप्लास ने अनुपात अनुमानक के साथ एक नमूने का उपयोग करके फ्रांस की आबादी का अनुमान लगाया।उन्होंने त्रुटि के संभाव्य अनुमानों की भी गणना की।इन्हें आधुनिक आत्मविश्वास अंतराल के रूप में व्यक्त नहीं किया गया था, लेकिन नमूना आकार के रूप में जो कि संभावना 1000/1001 के साथ नमूना त्रुटि पर एक विशेष ऊपरी सीमा को प्राप्त करने के लिए आवश्यक होगा।उनके अनुमानों ने बेयस के प्रमेय को एक समान पूर्व संभावना के साथ इस्तेमाल किया और यह मान लिया कि उनका नमूना यादृच्छिक था।अलेक्जेंडर इवानोविच चुप्रोव ने 1870 के दशक में इंपीरियल रूस को नमूना सर्वेक्षण शुरू किया। अमेरिकी राष्ट्रपति चुनाव में 1936 में एक रिपब्लिकन जीत की 1936 की साहित्यिक पाचन भविष्यवाणी, 1936 में राष्ट्रपति चुनाव बुरी तरह से भड़का हुआ था, गंभीर पूर्वाग्रह के कारण ।मैगज़ीन सब्सक्रिप्शन लिस्ट और टेलीफोन निर्देशिकाओं के माध्यम से प्राप्त उनके नाम के साथ दो मिलियन से अधिक लोगों ने अध्ययन का जवाब दिया।यह सराहना नहीं की गई थी कि ये सूचियाँ रिपब्लिकन के प्रति भारी पक्षपाती थीं और परिणामस्वरूप नमूना, हालांकि बहुत बड़ा था, गहराई से त्रुटिपूर्ण था।

यह भी देखें

 * आंकड़ा संग्रहण
 * अनुमान सिद्धांत
 * Gy का नमूना सिद्धांत
 * जर्मन टैंक समस्या
 * होर्विट्ज़ -थॉम्पसन अनुमानक
 * आधिकारिक आंकड़े
 * अनुपात अनुमानक
 * प्रतिकृति (सांख्यिकी)
 * यादृच्छिक-नमूनाकरण तंत्र
 * Resampling (सांख्यिकी)
 * स्यूडो-रैंडम नंबर सैंपलिंग
 * नमूना आकार निर्धारण
 * नमूना (केस स्टडी)
 * आंकड़ों की अशुद्धि
 * नमूने का वितरण
 * नमूनाकरण त्रुटि
 * क्रमबद्धता
 * सर्वेक्षण नमूनाकरण
 * डिजाइन प्रभाव

टिप्पणियाँ
The textbook by Groves et alia provides an overview of survey methodology, including recent literature on questionnaire development (informed by cognitive psychology) :
 * Robert Groves, et alia. Survey methodology (2010 2nd ed. [2004]) ISBN 0-471-48348-6.

The other books focus on the statistical theory of survey sampling and require some knowledge of basic statistics, as discussed in the following textbooks: The elementary book by Scheaffer et alia uses quadratic equations from high-school algebra: More mathematical statistics is required for Lohr, for Särndal et alia, and for Cochran (classic):
 * David S. Moore and George P. McCabe (February 2005). "Introduction to the practice of statistics" (5th edition). W.H. Freeman & Company. ISBN 0-7167-6282-X.
 * Scheaffer, Richard L., William Mendenhal and R. Lyman Ott. Elementary survey sampling, Fifth Edition. Belmont: Duxbury Press, 1996.

The historically important books by Deming and Kish remain valuable for insights for social scientists (particularly about the U.S. census and the Institute for Social Research at the University of Michigan):
 * Kish, Leslie (1995) Survey Sampling, Wiley, ISBN 0-471-10949-5
 * Kish, Leslie (1995) Survey Sampling, Wiley, ISBN 0-471-10949-5

अग्रिम पठन

 * Singh, G N, Jaiswal, A. K., and Pandey A. K. (2021), Improved Imputation Methods for Missing Data in Two-Occasion Successive Sampling, Communications in Statistics: Theory and Methods. DOI:10.1080/03610926.2021.1944211
 * Chambers, R L, and Skinner, C J (editors) (2003), Analysis of Survey Data, Wiley, ISBN 0-471-89987-9
 * Deming, W. Edwards (1975) On probability as a basis for action, The American Statistician, 29(4), pp. 146–152.
 * Gy, P (2012) Sampling of Heterogeneous and Dynamic Material Systems: Theories of Heterogeneity, Sampling and Homogenizing, Elsevier Science, ISBN 978-0444556066
 * Korn, E.L., and Graubard, B.I. (1999) Analysis of Health Surveys, Wiley, ISBN 0-471-13773-1
 * Lucas, Samuel R. (2012). "Beyond the Existence Proof: Ontological Conditions, Epistemological Implications, and In-Depth Interview Research."], Quality & Quantity,.
 * Stuart, Alan (1962) Basic Ideas of Scientific Sampling, Hafner Publishing Company, New York
 * (Portrait of T. M. F. Smith on page 144)
 * (Portrait of T. M. F. Smith on page 144)

आईएसओ

 * आईएसओ 2859 श्रृंखला
 * आईएसओ 3951 श्रृंखला

ASTM

 * ASTM E105 सामग्री की संभावना नमूने के लिए मानक अभ्यास
 * एएसटीएम E122 मानक अभ्यास नमूना आकार की गणना के लिए अनुमान लगाने के लिए, एक निर्दिष्ट सहनीय त्रुटि के साथ, बहुत या प्रक्रिया की विशेषता के लिए औसत
 * ASTM E141 संभावना नमूनाकरण के परिणामों के आधार पर साक्ष्य की स्वीकृति के लिए मानक अभ्यास
 * एएसटीएम E1402 मानक शब्दावली नमूनाकरण से संबंधित
 * ASTM E1994 प्रक्रिया उन्मुख AOQL और LTPD नमूना योजनाओं के उपयोग के लिए मानक अभ्यास
 * ASTM E2234 AQL द्वारा अनुक्रमित विशेषताओं द्वारा उत्पाद की एक धारा के नमूने के लिए मानक अभ्यास

ANXI, ASYA

 * एनेसी/अस्या Z1.H

अमेरिकी संघीय और सैन्य मानक

 * MIL-STD-105
 * MIL-STD-1916

बाहरी संबंध


]