पुनः प्रतिचयन (सांख्यिकी)

आँकड़ों में, एक देखे गए मापक्रम के आधार पर नए मापक्रमों का निर्माण पुनःप्रतिचयन है। पुनःप्रतिचयन विधियाँ निम्नलिखित हैं:
 * 1) क्रमचय परीक्षण (फिर से यादृच्छिक परीक्षण भी)
 * 2) स्वोत्थान (सांख्यिकी)
 * 3) अंतः वैधीकरण (आँकड़े)

क्रमचय परीक्षण
क्रमचय परीक्षण शून्य परिकल्पना को मानकर मूल डेटा के पुनः प्रतिचयन पर निर्भर करते हैं। पुनर्प्रतिरूप डेटा के आधार पर यह निष्कर्ष निकाला जा सकता है कि शून्य परिकल्पना के तहत मूल डेटा के होने की कितनी संभावना है।

बूटस्ट्रैप
मूल मापक्रम से प्रतिस्थापन के साथ प्रतिचयन (सांख्यिकी) द्वारा पुर्वानुमानक के प्रतिचयन वितरण का पुर्वानुमान लगाने के लिए स्वोत्थान एक सांख्यिकीय पद्धति है, जिसका उद्देश्य मानक त्रुटियों के शक्तिशाली आकलक और जनसंख्या मापदण्ड के विश्वास अंतराल जैसे माध्य, आनुपातिकता (गणित), अंतर अनुपात, पियर्सन उत्पाद-क्षण सहसंबंध गुणांक या प्रतिगमन विश्लेषण गुणांक है। इसे प्लग-इन सिद्धांत कहा गया है, क्योंकि यह एक मापक्रम के आधार पर अनुभवजन्य वितरण फलन में समान कार्यात्मकताओं का मूल्यांकन करके जनसंख्या वितरण के कार्यात्मकताओं के पुर्वानुमान सांख्यिकी की विधि है।

उदाहरण के लिए, जनसंख्या सांख्यिकी माध्य का आकलन करते समय, यह विधि प्रतिरूप (सांख्यिकी) माध्य का उपयोग करती है; जनसंख्या माध्यिका (सांख्यिकी) का पुर्वानुमान लगाने के लिए, यह प्रतिरूप माध्यिका का उपयोग करता है; जनसंख्या प्रतिगमन रेखा का पुर्वानुमान लगाने के लिए, यह प्रतिरूप प्रतिगमन रेखा का उपयोग करता है।

इसका उपयोग परिकल्पना परीक्षणों के निर्माण के लिए भी किया जा सकता है। यह प्रायः प्राचलिक मान्यताओं के आधार पर पुर्वानुमान के एक शक्तिशाली विकल्प के रूप में उपयोग किया जाता है, जब उन मान्यताओं पर संदेह होता है, या जहां प्राचलिक पुर्वानुमान असंभव है या मानक त्रुटियों की गणना के लिए बहुत जटिल सूत्रों की आवश्यकता होती है। स्वोत्थान तकनीकों का उपयोग कण निस्यंदक, आनुवांशिक कलन विधि और कम्प्यूटेशनल भौतिकी में उपयोग किए जाने वाले मोंटे कार्लो विधियों के अद्यतन-चयन संक्रमण में भी किया जाता है। इस संदर्भ में, बूटस्ट्रैप का उपयोग क्रमिक रूप से अनुभवजन्य भारित संभाव्यता उपायों को अनुभवजन्य उपायों से बदलने के लिए किया जाता है। बूटस्ट्रैप उच्च भार वाले मापक्रमों की प्रतियों द्वारा कम वजन वाले मापक्रमों को बदलने की अनुमति देता है।

अंतः वैधीकरण
अंतः वैधीकरण भविष्यसूचक प्रतिरूपण को मान्य करने के लिए एक सांख्यिकीय पद्धति है। डेटा के उपवर्ग को सत्यापन सम्मुच्चय के रूप में उपयोग के लिए रखा जाता है; एक प्रतिरूप शेष डेटा (एक प्रशिक्षण सम्मुच्चय) के लिए उपयुक्त है और सत्यापन सम्मुच्चय के लिए भविष्यवाणी करने के लिए उपयोग किया जाता है। सत्यापन सम्मुच्चय में भविष्यवाणियों की गुणवत्ता का औसत भविष्यवाणी उपयुक्तता का एक समग्र माप देता है। निर्णय पेड़ों के निर्माण में बार-बार अंतः वैधीकरण का उपयोग किया जाता है।

अंतः वैधीकरण का एक रूप एक समय में एक ही अवलोकन छोड़ देता है; यह जैकनाइफ पुनः प्रतिचयन के समान है। एक और, k-गुना अंतः वैधीकरण, डेटा को के उपवर्ग में विभाजित करता है; सत्यापन सम्मुच्चय के रूप में प्रत्येक को बारी-बारी से आयोजित किया जाता है।

यह आत्म-प्रभाव से बचाता है। तुलना के लिए, प्रतिगमन विश्लेषण विधियों जैसे रैखिक प्रतिगमन में, प्रत्येक y मान प्रतिगमन रेखा को अपनी ओर खींचता है, जिससे उस मूल्य की भविष्यवाणी वास्तव में उससे अधिक उपयुक्त दिखाई देती है। रेखीय प्रतिगमन पर लागू अंतः वैधीकरण उस अवलोकन का उपयोग किए बिना प्रत्येक अवलोकन के लिए y मान की भविष्यवाणी करता है।

यह प्रायः यह तय करने के लिए उपयोग किया जाता है कि प्रतिगमन में कितने भविष्यवक्ता चर का उपयोग करना है। अंतः वैधीकरण के बिना, भविष्यवक्ताओं को जोड़ने से हमेशा वर्गों का अवशिष्ट योग कम हो जाता है (या संभवतः इसे अपरिवर्तित छोड़ देता है)। इसके विपरीत, यदि मूल्यवान भविष्यवक्ताओं को जोड़ा जाता है, तो अंतः वैधीकरण वर्गमाध्य त्रुटि कम हो जाएगी, लेकिन यदि बेकार भविष्यवक्ताओं को जोड़ा जाता है तो वृद्धि होगी।

मोंटे कार्लो अंतः वैधीकरण
एक पुर्वानुमानक के प्रतिचयन वितरण का पुर्वानुमान लगाने के लिए उप प्रतिचयन एक वैकल्पिक तरीका है। बूटस्ट्रैप में दो प्रमुख अंतर हैं:
 * 1) प्रतिरूप आकार प्रतिरूप आकार से छोटा है और
 * 2) पुनर्प्रतिरूप प्रतिस्थापन के बिना किया जाता है।

उप प्रतिचयन का लाभ यह है कि यह बूटस्ट्रैप की तुलना में बहुत शक्तिहीन परिस्थितियों में मान्य है। विशेष रूप से, पर्याप्त स्तिथियों का एक सम्मुच्चय यह है कि पुर्वानुमानक के अभिसरण की दर ज्ञात है और सीमित वितरण निरंतर है।

इसके अतिरिक्त, प्रतिदर्श (या उप-प्रतिरूप) आकार को प्रतिरूप आकार के साथ-साथ अनंत तक जाना चाहिए, लेकिन एक छोटी दर पर, ताकि उनका अनुपात शून्य हो जाए। जबकि उप प्रतिचयन मूल रूप से केवल स्वतंत्र और समान रूप से वितरित (आईआईडी) डेटा की स्तिथि में प्रस्तावित किया गया था, कार्यप्रणाली को समय श्रृंखला डेटा को भी आच्छादित करने के लिए विस्तारित किया गया है; इस स्तिथि में, एक व्यक्तिगत डेटा बिंदुओं के स्थान पर बाद के डेटा के खंडक को दोहराता है। उपयोजित अभिरूचि की कई स्तिथि हैं जहां उप प्रतिचयन वैध पुर्वानुमान की ओर ले जाती है जबकि स्वोत्थान नहीं; उदाहरण के लिए, ऐसे स्तिथियों में उदाहरण सम्मिलित हैं जहां पुर्वानुमानक के अभिसरण की दर प्रतिरूप आकार का वर्गमूल नहीं है या जब सीमित वितरण गैर-सामान्य है। जब उप प्रतिचयन और बूटस्ट्रैप दोनों संगत होते हैं, तो बूटस्ट्रैप सामान्यतः अधिक उपयुक्त होता है। रानसैक उप प्रतिचयन का उपयोग करने वाला एक लोकप्रिय कलन विधि है।

जैकनाइफ अंतः वैधीकरण
जैकनाइफिंग (जैकनाइफ अंतः वैधीकरण), एक सांख्यिकीय के पूर्वाग्रह और मानक त्रुटि (विचरण) का पुर्वानुमान लगाने के लिए सांख्यिकीय पुर्वानुमान में उपयोग किया जाता है, जब इसकी गणना करने के लिए टिप्पणियों का एक यादृच्छिक प्रतिरूप उपयोग किया जाता है। ऐतिहासिक रूप से, यह विधि बूटस्ट्रैप के आविष्कार से पहले मौरिस क्वेनौली ने 1949 में इस पद्धति का आविष्कार किया था और जॉन टुकी ने 1958 में इसका विस्तार किया था। इस पद्धति का पूर्वाभास प्रशांत चंद्र महालनोबिस ने किया था, जिन्होंने 1946 में यादृच्छिक रूप से चुने गए आधे मापक्रम के साथ अभिरूचि के आंकड़ों के बार-बार पुर्वानुमान लगाने का सुझाव दिया था। उन्होंने इस पद्धति के लिए 'अंतर्वेधन प्रतिरूप' नाम गढ़ा।

प्रतिरूप पुर्वानुमान के पूर्वाग्रह को कम करने के उद्देश्य से क्वेनौइल ने इस पद्धति का आविष्कार किया। टकी ने इस पद्धति को यह मानकर बढ़ाया कि यदि प्रतिकृति को समान रूप से और स्वतंत्र रूप से वितरित माना जा सकता है, तो प्रतिरूप मापदण्ड के विचरण का पुर्वानुमान लगाया जा सकता है और यह लगभग n−1 स्वतंत्रता की घात (n) के साथ एक t भिन्न के रूप में वितरित किया जाएगा।

जैकनाइफ विचरण पुर्वानुमानक के पीछे मूल विचार व्यवस्थित रूप से प्रतिरूप सम्मुच्चय से एक समय में एक या अधिक अवलोकनों को छोड़कर सांख्यिकीय पुर्वानुमानों की पुन: गणना करने में निहित है। आँकड़ों की प्रतिकृति के इस नए सम्मुच्चय से, पूर्वाग्रह के लिए एक पुर्वानुमान और आँकड़ों के विचरण के लिए एक पुर्वानुमान की गणना की जा सकती है।

विचरण का पुर्वानुमान लगाने के लिए जैकनाइफ का उपयोग करने के स्थान पर, इसे प्रसरण के अभिलेख पर लागू किया जा सकता है। इस परिवर्तन के परिणामस्वरूप बेहतर पुर्वानुमान लग सकते हैं, विशेष रूप से जब भिन्नता का वितरण स्वयं सामान्य नहीं हो सकता है।

कई सांख्यिकीय मापदंडों के लिए विचरण का जैकनाइफ पुर्वानुमान असम्बद्ध रूप से सही मूल्य पर लगभग निश्चित रूप से जाता है। तकनीकी शब्दों में कहा जाता है कि जैकनाइफ का पुर्वानुमान लगातार पुर्वानुमानक है। जैकनाइफ प्रतिरूप साधनों, प्रतिरूप भिन्नता, केंद्रीय और गैर-केंद्रीय टी-सांख्यिकी (संभवतः गैर-सामान्य आबादी के साथ), भिन्नता का प्रतिरूप गुणांक, अधिकतम संभावना पुर्वानुमानक, कम से कम वर्ग पुर्वानुमानक, पियर्सन उत्पाद-क्षण सहसंबंध गुणांक और प्रतिगमन के लिए संगत है।

यह प्रतिरूप माध्यिका के लिए संगत नहीं है। एक अनिप्रतिरूप विचर के स्तिथि में प्रतिरूप प्रसरण के लिए जैकनाइफ विचरण का अनुपात दो स्वतंत्रता की घात के साथ एक ची वर्ग वितरण के आधे वर्ग के रूप में वितरित किया जाता है।

जैकनाइफ, मूल बूटस्ट्रैप की तरह, डेटा की स्वतंत्रता पर निर्भर है। डेटा में निर्भरता की अनुमति देने के लिए जैकनाइफ के विस्तार का प्रस्ताव किया गया है।

एक अन्य विस्तारण विलोप-ए-ग्रुप विधि है जिसका उपयोग प्वासों प्रतिरूप के सहयोग से किया जाता है।

जैकनाइफ रैंडम (उप प्रतिचयन) लीव-वन-आउट अंतः वैधीकरण के बराबर है, यह केवल लक्ष्य में भिन्न है।

बूटस्ट्रैप और जैकनाइफ की तुलना
दोनों विधियाँ, बूटस्ट्रैप और जैकनाइफ, प्राचलिक मान्यताओं के स्थान पर उप-मापक्रम के बीच उस आँकड़े की परिवर्तनशीलता से एक आंकड़े की परिवर्तनशीलता का पुर्वानुमान लगाती हैं। अधिक सामान्य जैकनाइफ के लिए, विलोपन-एम अवलोकन जैकनाइफ, बूटस्ट्रैप को इसके एक यादृच्छिक सन्निकटन के रूप में देखा जा सकता है। दोनों समान संख्यात्मक परिणाम देते हैं, यही कारण है कि प्रत्येक को दूसरे के सन्निकटन के रूप में देखा जा सकता है। यद्यपि उनकी गणितीय अंतर्दृष्टि में भारी सैद्धांतिक अंतर हैं, सांख्यिकी उपयोगकर्ताओं के लिए मुख्य व्यावहारिक अंतर यह है कि स्वोत्थान (सांख्यिकी) एक ही डेटा पर दोहराए जाने पर अलग-अलग परिणाम देता है, जबकि जैकनाइफ हर बार बिल्कुल वही परिणाम देता है। इस वजह से, जैकनाइफ लोकप्रिय है जब पुर्वानुमानों को प्रकाशन से पहले कई बार सत्यापित करने की आवश्यकता होती है (उदाहरण के लिए, आधिकारिक सांख्यिकी अभिकरण)। दूसरी ओर, जब यह सत्यापन विशेषता महत्वपूर्ण नहीं होती है और यह रुचिकर होता है कि कोई संख्या न हो बल्कि इसके वितरण का केवल एक विचार हो, तो बूटस्ट्रैप को प्राथमिकता दी जाती है (उदाहरण के लिए, भौतिकी, अर्थशास्त्र, जैविक विज्ञान में अध्ययन)।

बूटस्ट्रैप या जैकनाइफ का उपयोग करना सर्वेक्षण के सांख्यिकीय चिंताओं की तुलना में परिचालन पहलुओं पर अधिक निर्भर हो सकता है। जैकनाइफ, मूल रूप से पूर्वाग्रह में कमी के लिए उपयोग किया जाता है, यह एक विशेष विधि है और केवल बिंदु पुर्वानुमानक के विचरण का पुर्वानुमान लगाता है। यह बुनियादी सांख्यिकीय पुर्वानुमान (जैसे, परिकल्पना परीक्षण, विश्वास अंतराल) के लिए पर्याप्त हो सकता है। दूसरी ओर, बूटस्ट्रैप पहले पूरे वितरण (बिंदु पुर्वानुमानक के) का पुर्वानुमान लगाता है और फिर उससे भिन्नता की गणना करता है। जबकि शक्तिशाली और आसान, यह अत्यधिक कम्प्यूटेशनल रूप से गहन हो सकता है।

बूटस्ट्रैप को भिन्नता और वितरण पुर्वानुमान समस्याओं दोनों पर लागू किया जा सकता है। हालांकि, अनुभवजन्य परिणामों के संदर्भ में बूटस्ट्रैप प्रसरण पुर्वानुमानक जैकनाइफ या संतुलित दोहराया प्रतिकृति (बीआरआर) प्रसरण पुर्वानुमानक जितना अच्छा नहीं है। इसके अतिरिक्त, बूटस्ट्रैप प्रसरण पुर्वानुमानक को सामान्यतः जैकनाइफ या बीआरआर की तुलना में अधिक संगणना की आवश्यकता होती है। इस प्रकार, वितरण पुर्वानुमान के लिए मुख्य रूप से बूटस्ट्रैप की सिफारिश की जाती है।

जैकनाइफ के साथ एक विशेष विचार विशेष रूप से विलोप -1 प्रेक्षण जैकनाइफ के साथ है। इसका उपयोग केवल सहज, अलग-अलग आँकड़ों के साथ किया जाना चाहिए (जैसे, योग, साधन, अनुपात, अनुपात, विषम अनुपात, प्रतिगमन गुणांक, आदि; माध्यिका या मात्रा के साथ नहीं किया जाना चाहिए)। यह एक व्यावहारिक हानि बन सकता है। यह हानि सामान्यतः जैकनाइफिंग पर स्वोत्थान के पक्ष में तर्क है। विलोप-1 की तुलना में अधिक सामान्य जैकनाइफ, जैसे कि विलोप-एम जैकनाइफ हॉजेज-लेहमन पुर्वानुमानक निरंतर विचरण पुर्वानुमान के लिए निर्बाध आवश्यकताओं को शिथिल करके माध्यिका और विभाजक के लिए इस समस्या को दूर करते हैं।

सामान्यतः जैकनाइफ को बूटस्ट्रैप की तुलना में जटिल प्रतिचयन योजनाओं पर लागू करना आसान होता है। जटिल प्रतिचयन योजनाओं में स्तरीकरण, कई चरणों (गुच्छन), अलग-अलग प्रतिरूप भार (गैर-प्रतिक्रिया समायोजन, अंशांकन, पोस्ट-स्तरीकरण) और असमान-संभाव्यता प्रतिचयन अभिकल्पना के अंतर्गत सम्मिलित हो सकते हैं। बूटस्ट्रैप और जैकनाइफ दोनों के सैद्धांतिक पहलुओं को शाओ और तू (1995) में पाया जा सकता है, जबकि वोल्टर (2007) में मूल परिचय दिया गया है। प्रतिरूप भविष्यवाणी पूर्वाग्रह का बूटस्ट्रैप पुर्वानुमान जैकनाइफ पुर्वानुमानों की तुलना में अधिक उपयुक्त है, जैसे रैखिक प्रतिरूप जैसे रैखिक विभेदक फलन या एकाधिक प्रतिगमन है।

यह भी देखें

 * बूटस्ट्रैप एकत्रीकरण (बैगिंग)
 * आनुवांशिक कलन विधि
 * मोंटे कार्लो विधि
 * गैर प्राचलिक आँकड़े
 * कण निस्यंदक
 * स्यूडोरेप्लिकेशन
 * गैर-समान यादृच्छिक चर पीढ़ी
 * यादृच्छिक क्रमपरिवर्तन
 * प्रतिकृति (सांख्यिकी)
 * सरोगेट डेटा परीक्षण

ग्रन्थसूची

 * Good, P. (2006) Resampling Methods. 3rd Ed. Birkhauser.
 * Wolter, K.M. (2007). Introduction to Variance Estimation. 2nd Edition. Springer, Inc.
 * Pierre Del Moral (2004). Feynman-Kac formulae. Genealogical and Interacting particle systems with applications, Springer, Series Probability and Applications. ISBN 978-0-387-20268-6
 * Pierre Del Moral (2013). Del Moral, Pierre (2013). Mean field simulation for Monte Carlo integration. Chapman & Hall/CRC Press, Monographs on Statistics and Applied Probability. ISBN 9781466504059

सॉफ्टवेयर

 * एंजेलो कैंटी और ब्रायन रिप्ले (2010)। बूट: बूटस्ट्रैप आर (एस-प्लस) कार्य। आर पैकेज संस्करण 1.2-43। ए.सी. डेविसन और डी.वी. हिंकले (1997, सीयूपी) की पुस्तक बूटस्ट्रैप मेथड्स एंड देयर एप्लीकेशन से स्वोत्थान के लिए कार्य और डेटासम्मुच्चय।
 * सांख्यिकी101: पुनः प्रतिचयन, बूटस्ट्रैप, मोंटे कार्लो सिमुलेशन प्रोग्राम
 * R पैकेज `samplingVarEst': प्रतिरूप भिन्नता पुर्वानुमान। कुछ बिंदु पुर्वानुमानकों के प्रतिचयन भिन्नता का पुर्वानुमान लगाने के लिए कार्य करता है।
 * TREC परिणामों के मूल्यांकन के लिए युग्मित यादृच्छिकीकरण/क्रमपरिवर्तन परीक्षण
 * रेंडमाइजेशन/परमुटेशन परीक्षण सूचना पुनर्प्राप्ति प्रयोगों में परिणामों का मूल्यांकन करने के लिए (कई तुलनाओं के लिए समायोजन के साथ और बिना)।
 * जीनोमिक्स के अनुप्रयोगों के साथ बायोकंडक्टर पुनः प्रतिचयन-आधारित बहु परिकल्पना परीक्षण।
 * permtest: एक आर पैकेज माइक्रोएरे डेटा के एक सम्मुच्चय के भीतर दो समूहों के बीच परिवर्तनशीलता और दूरी की तुलना करने के लिए।
 * बूटस्ट्रैप पुनः प्रतिचयन: आर में बूटस्ट्रैप पुनः प्रतिचयन के साथ परिकल्पना परीक्षण का इंटरैक्टिव प्रदर्शन।
 * क्रमचय परीक्षण: आर में क्रमपरिवर्तन परीक्षण के साथ परिकल्पना परीक्षण का इंटरैक्टिव प्रदर्शन।

श्रेणी: पुनःप्रतिचयन (आँकड़े) श्रेणी:मोंटे कार्लो के तरीके श्रेणी:सांख्यिकीय पुर्वानुमान श्रेणी:गैर प्राचलिक आँकड़े