क्रमपरिवर्तन परीक्षण

क्रमपरिवर्तन परीक्षण (जिसे पुन: यादृच्छिकीकरण परीक्षण या मिश्रण परीक्षण भी कहा जाता है) विरोधाभास द्वारा प्रमाण का उपयोग करने वाला एक सटीक सांख्यिकीय परिकल्पना परीक्षण है। एक क्रमपरिवर्तन परीक्षण में दो या अधिक नमूने सम्मिलित होते हैं। अशक्त परिकल्पना यह है कि सभी नमूने एक ही वितरण $H_{0}:F=G$ से आते हैं। अशक्त परिकल्पना के तहत, परीक्षण सांख्यिकी का वितरण प्रेक्षित डेटा के संभावित पुनर्व्यवस्था के तहत परीक्षण सांख्यिकी के सभी संभावित मूल्यों की गणना करके प्राप्त किया जाता है। इसलिए, क्रमपरिवर्तन परीक्षण पुनः नमूनाकरण का एक रूप हैं।

क्रमपरिवर्तन परीक्षणों को सरोगेट डेटा परीक्षण के रूप में समझा जा सकता है जहां अशक्त परिकल्पना के तहत सरोगेट डेटा मूल डेटा के क्रमपरिवर्तन के माध्यम से प्राप्त किया जाता है।^[1]

दूसरे शब्दों में, वह विधि जिसके द्वारा प्रयोगात्मक डिजाइन में विषयों को उपचार आवंटित किया जाता है, उस डिजाइन के विश्लेषण में प्रतिबिंबित होता है। यदि लेबल अशक्त परिकल्पना के तहत विनिमेय हैं, तो परिणामी परीक्षण सटीक महत्व स्तर प्राप्त करते हैं; विनिमयशीलता भी देखें. फिर परीक्षणों से आत्मविश्वास अंतराल प्राप्त किया जा सकता है। यह सिद्धांत 1930 के दशक में रोनाल्ड फिशर और ई.जे.जी. पिटमैन के कार्यों से विकसित हुआ है।

क्रमपरिवर्तन परीक्षण को यादृच्छिक परीक्षण के साथ भ्रमित नहीं किया जाना चाहिए।^[2]

विधि

4 और 5 यादृच्छिक मानों के सेट पर गणना किए जा रहे क्रमपरिवर्तन परीक्षण का एनीमेशन। लाल रंग में 4 मान एक वितरण से और नीले रंग में 5 मान दूसरे वितरण से लिए गए हैं; हम परीक्षण करना चाहेंगे कि क्या दोनों वितरणों के माध्य मान भिन्न हैं। परिकल्पना यह है कि पहले वितरण का माध्य दूसरे के माध्य से अधिक है; शून्य परिकल्पना यह है कि नमूनों के दोनों समूह एक ही वितरण से लिए गए हैं। 4 मानों को एक समूह में और 5 को दूसरे समूह में रखने के 126 अलग-अलग विधि हैं (9-चुनें-4 या 9-चुनें-5)। इनमें से एक मूल लेबलिंग के अनुसार है, और अन्य 125 क्रमपरिवर्तन हैं जो माध्य अंतर का हिस्टोग्राम उत्पन्न करते हैं

{\hat {\mu }}_{1}-{\hat {\mu }}_{2}

दिखाया गया. परिकल्पना के p-मूल्य का अनुमान उन क्रमपरिवर्तनों के अनुपात के रूप में लगाया जाता है जो मूल नमूनों के साधनों के अंतर से बड़ा या बड़ा अंतर देते हैं। इस उदाहरण में, शून्य परिकल्पना

p = 5%

को अस्वीकार नहीं किया जा सकता है।

क्रमपरिवर्तन परीक्षण के मूल विचार को स्पष्ट करने के लिए, मान लीजिए कि हम दो समूहों $X_{A}$ और $X_{B}$ से प्रत्येक व्यक्ति के लिए यादृच्छिक चर $A$ और $B$ एकत्र करते हैं, जिनका नमूना माध्य ${\bar {x}}_{A}$ और ${\bar {x}}_{B}$ है, और वह हम जानना चाहते हैं कि क्या $X_{A}$ और $X_{B}$ एक ही वितरण से आते हैं। मान लीजिए $n_{A}$ और $n_{B}$ प्रत्येक समूह से एकत्रित नमूना आकार हैं। क्रमपरिवर्तन परीक्षण यह निर्धारित करने के लिए डिज़ाइन किया गया है कि क्या नमूना साधनों के बीच मनाया गया अंतर कुछ महत्व स्तर पर, शून्य परिकल्पना H $_{0}$ को अस्वीकार करने के लिए पर्याप्त है कि $A$ से लिया गया डेटा उसी वितरण से है जैसा कि $B$ से लिया गया डेटा है।

परीक्षण इस प्रकार आगे बढ़ता है. सबसे पहले, दो नमूनों के बीच के अंतर की गणना की जाती है: यह परीक्षण सांख्यिकीय, $T_{\text{obs}}$ का मनाया गया मूल्य है।

इसके बाद, समूह $A$ और $B$ के अवलोकनों को पूल किया जाता है, और नमूना साधनों में अंतर की गणना की जाती है और पूल किए गए मानों को आकार के दो समूहों $n_{A}$ और $n_{B}$ में विभाजित करने के हर संभव विधि के लिए रिकॉर्ड किया जाता है (यानी, समूह लेबल ए और बी के प्रत्येक क्रमपरिवर्तन के लिए)। इन गणना किए गए अंतरों का सेट अशक्त परिकल्पना के तहत संभावित अंतरों (इस नमूने के लिए) का सटीक वितरण है कि समूह लेबल विनिमेय हैं (यानी, यादृच्छिक रूप से निर्दिष्ट हैं)।

परीक्षण के एक तरफा p-वैल्यू की गणना नमूना क्रमपरिवर्तन के अनुपात के रूप में की जाती है जहां साधनों में अंतर $T_{\text{obs}}$ से अधिक था। परीक्षण के दो-तरफा p-मान की गणना नमूना क्रमपरिवर्तन के अनुपात के रूप में की जाती है जहां पूर्ण अंतर $|T_{\text{obs}}|$ से अधिक था। क्रमपरिवर्तन परीक्षणों के कई कार्यान्वयन के लिए आवश्यक है कि देखे गए डेटा को स्वयं क्रमपरिवर्तन में से एक के रूप में गिना जाए ताकि क्रमपरिवर्तन p-मान कभी भी शून्य न हो।^[3]

वैकल्पिक रूप से, यदि परीक्षण का एकमात्र उद्देश्य शून्य परिकल्पना को अस्वीकार करना या अस्वीकार करना है, तो कोई रिकॉर्ड किए गए मतभेदों को हल कर सकता है, और फिर देखें कि क्या $T_{\text{obs}}$ कुछ महत्व स्तर के लिए उनमें से मध्य $\alpha$ $(1-\alpha )\times 100$ के भीतर समाहित है। यदि ऐसा नहीं है, तो हम $\alpha \times 100\%$ महत्व स्तर पर समान संभाव्यता वक्रों की परिकल्पना को अस्वीकार कर देते हैं।

युग्मित नमूनों के लिए युग्मित क्रमपरिवर्तन परीक्षण लागू करने की आवश्यकता है।

पैरामीट्रिक परीक्षणों से संबंध

क्रमपरिवर्तन परीक्षण गैर-पैरामीट्रिक सांख्यिकी का एक उपसमूह हैं। यह मानते हुए कि हमारा प्रयोगात्मक डेटा दो उपचार समूहों से मापा गया डेटा से आता है, विधि केवल इस धारणा के तहत औसत अंतर का वितरण उत्पन्न करती है कि दोनों समूह मापा चर के संदर्भ में अलग नहीं हैं। इससे, फिर कोई देखे गए सांख्यिकी ( $T_{\text{obs}}$ ) का उपयोग यह देखने के लिए करता है कि यह सांख्यिकी किस हद तक विशेष है, यानी, यदि उपचार के बाद उपचार लेबल को यादृच्छिक रूप से यादृच्छिक किया गया था, तो ऐसे मूल्य (या बड़े) के परिमाण को देखने की संभावना।

क्रमपरिवर्तन परीक्षणों के विपरीत, कई लोकप्रिय "चिरसम्मत" सांख्यिकीय परीक्षणों, जैसे t-परीक्षण, f-परीक्षण, z-परीक्षण और ${\textstyle \chi ^{2}}$ परीक्षण के अंतर्निहित वितरण सैद्धांतिक संभाव्यता वितरण से प्राप्त किए जाते हैं। फिशर का सटीक परीक्षण दो द्विभाजित चरों के बीच संबंध का मूल्यांकन करने के लिए सामान्यतः उपयोग किए जाने वाले क्रमपरिवर्तन परीक्षण का एक उदाहरण है। जब नमूना आकार बहुत बड़ा होता है, तो पियर्सन का ची-स्क्वायर परीक्षण सटीक परिणाम देगा। छोटे नमूनों के लिए, ची-स्क्वायर संदर्भ वितरण को परीक्षण आंकड़ों के संभाव्यता वितरण का सही विवरण देने के लिए नहीं माना जा सकता है, और इस स्थिति में फिशर के सटीक परीक्षण का उपयोग अधिक उपयुक्त हो जाता है।

क्रमपरिवर्तन परीक्षण कई स्थितियों में उपस्थित होते हैं जहां पैरामीट्रिक परीक्षण नहीं होते हैं (उदाहरण के लिए, जब एक इष्टतम परीक्षण प्राप्त होता है जब हानि उसके वर्ग के स्थान पर त्रुटि के आकार के समानुपाती होता है)। सभी सरल और कई अपेक्षाकृत जटिल पैरामीट्रिक परीक्षणों में एक अनुरूप क्रमपरिवर्तन परीक्षण संस्करण होता है जिसे पैरामीट्रिक परीक्षण के समान परीक्षण आंकड़ों का उपयोग करके परिभाषित किया जाता है, लेकिन पैरामीट्रिक धारणा से प्राप्त सैद्धांतिक वितरण के स्थान पर उस सांख्यिकी के नमूना-विशिष्ट क्रमपरिवर्तन वितरण से p-मान प्राप्त करता है। उदाहरण के लिए, इस विधि से क्रमपरिवर्तन t-परीक्षण, एसोसिएशन का क्रमपरिवर्तन $2 परीक्षण, भिन्नताओं की तुलना करने के लिए एली के परीक्षण का क्रमपरिवर्तन संस्करण इत्यादि बनाना संभव है।

क्रमपरिवर्तन परीक्षणों की प्रमुख कमियां यह हैं कि वे

कम्प्यूटेशनल रूप से गहन हो सकता है और कठिन-से-गणना सांख्यिकी के लिए "कस्टम" कोड की आवश्यकता हो सकती है। इसे प्रत्येक स्थिति के लिए पुनः लिखा जाना चाहिए।
इनका उपयोग मुख्य रूप से p-वैल्यू प्रदान करने के लिए किया जाता है। विश्वास क्षेत्रों/अंतरालों को प्राप्त करने के लिए परीक्षण के व्युत्क्रमण के लिए और भी अधिक गणना की आवश्यकता होती है।

लाभ

क्रमपरिवर्तन परीक्षण किसी भी परीक्षण सांख्यिकी के लिए उपस्थित होते हैं, भले ही उसका वितरण ज्ञात हो या नहीं। इस प्रकार कोई भी उस सांख्यिकी को चुनने के लिए हमेशा स्वतंत्र होता है जो परिकल्पना और विकल्प के बीच सबसे अच्छा भेदभाव करता है और जो हानि को कम करता है।

क्रमपरिवर्तन परीक्षणों का उपयोग असंतुलित डिज़ाइनों का विश्लेषण करने के लिए किया जा सकता है^[4] और श्रेणीबद्ध, क्रमसूचक और मीट्रिक डेटा के मिश्रण पर निर्भर परीक्षणों के संयोजन के लिए (पेसारिन, 2001)। उनका उपयोग गुणात्मक डेटा का विश्लेषण करने के लिए भी किया जा सकता है जिसे मात्राबद्ध किया गया है (यानी, संख्याओं में बदल दिया गया है)। क्रमपरिवर्तन परीक्षण परिमाणित डेटा का विश्लेषण करने के लिए आदर्श हो सकते हैं जो पारंपरिक पैरामीट्रिक परीक्षणों (जैसे, t-परीक्षण, एनोवा) में अंतर्निहित सांख्यिकीय मान्यताओं को संतुष्ट नहीं करते हैं,^[5] पर्मानोवा देखें।

1980 के दशक से पहले, छोटे नमूना आकार वाले डेटा सेट को छोड़कर संदर्भ वितरण बनाने का बोझ अत्यधिक था।

1980 के दशक के बाद से, अपेक्षाकृत सस्ते तेज़ कंप्यूटरों के संगम और विशेष परिस्थितियों में लागू होने वाले नए परिष्कृत पथ एल्गोरिदम के विकास ने समस्याओं की एक विस्तृत श्रृंखला के लिए क्रमपरिवर्तन परीक्षण विधियों के अनुप्रयोग को व्यावहारिक बना दिया है। इसने मुख्य सांख्यिकीय सॉफ़्टवेयर पैकेजों में सटीक-परीक्षण विकल्पों को जोड़ने और यूनी- और बहु-परिवर्तनीय सटीक परीक्षणों की एक विस्तृत श्रृंखला करने और परीक्षण-आधारित "सटीक" आत्मविश्वास अंतराल की गणना करने के लिए विशेष सॉफ़्टवेयर की उपस्थिति को भी प्रारंभ किया।

सीमाएँ

क्रमपरिवर्तन परीक्षण के पीछे एक महत्वपूर्ण धारणा यह है कि शून्य परिकल्पना के तहत अवलोकन विनिमय योग्य हैं। इस धारणा का एक महत्वपूर्ण परिणाम यह है कि स्थान में अंतर के परीक्षण (क्रमपरिवर्तन t-परीक्षण की तरह) को सामान्यता धारणा के तहत समान भिन्नता की आवश्यकता होती है। इस संबंध में, क्रमपरिवर्तन t-परीक्षण चिरसम्मत छात्र के t-परीक्षण (बेहरेंस-फिशर समस्या) के समान ही कमजोरी साझा करता है। इस स्थिति में तीसरा विकल्प बूटस्ट्रैप-आधारित परीक्षण का उपयोग करना है। सांख्यिकीविद् फिलिप गुड क्रमपरिवर्तन परीक्षण और बूटस्ट्रैप परीक्षण के बीच अंतर को इस प्रकार समझाते हैं: "क्रमपरिवर्तन वितरण से संबंधित परिकल्पनाओं का परीक्षण करता है; बूटस्ट्रैप मापदंडों से संबंधित परिकल्पनाओं का परीक्षण करता है। परिणामस्वरूप, बूटस्ट्रैप कम-कठोर मान्यताओं पर जोर देता है।"^[6] बूटस्ट्रैप परीक्षण सटीक नहीं हैं . कुछ स्थितियों में, उचित रूप से छात्रीकृत सांख्यिकी पर आधारित एक क्रमपरिवर्तन परीक्षण विनिमयशीलता धारणा का उल्लंघन होने पर भी स्पर्शोन्मुख रूप से सटीक हो सकता है।^[7] बूटस्ट्रैप-आधारित परीक्षण शून्य परिकल्पना $H_{0}:F\neq G$ के साथ परीक्षण कर सकते हैं और इसलिए, समकक्ष परीक्षण करने के लिए उपयुक्त हैं।

मोंटे कार्लो परीक्षण

एक सुविधाजनक विधि से पूर्ण गणना की अनुमति देने के लिए डेटा के बहुत अधिक संभावित क्रम होने पर एक असम्बद्ध रूप से समकक्ष क्रमपरिवर्तन परीक्षण बनाया जा सकता है। यह मोंटे कार्लो नमूनाकरण द्वारा संदर्भ वितरण उत्पन्न करके किया जाता है, जो संभावित प्रतिकृति का एक छोटा (कुल क्रमपरिवर्तन के सापेक्ष) यादृच्छिक नमूना लेता है। यह अहसास कि इसे किसी भी डेटासेट पर किसी भी क्रमपरिवर्तन परीक्षण पर लागू किया जा सकता है, लागू सांख्यिकी के क्षेत्र में एक महत्वपूर्ण सफलता थी। इस दृष्टिकोण के सबसे पहले ज्ञात संदर्भ ईडन और येट्स (1933) और डवास (1957) हैं।^[8]^[9] इस प्रकार के क्रमपरिवर्तन परीक्षण को विभिन्न नामों से जाना जाता है: अनुमानित क्रमपरिवर्तन परीक्षण, मोंटे कार्लो क्रमपरिवर्तन परीक्षण या यादृच्छिक क्रमपरिवर्तन परीक्षण।^[10]

$N$ यादृच्छिक क्रमपरिवर्तन बाद, द्विपद वितरण के आधार पर p-मान के लिए विश्वास अंतराल प्राप्त करना संभव है, द्विपद अनुपात विश्वास अंतराल देखें। उदाहरण के लिए, यदि बाद में $N=10000$ यादृच्छिक क्रमपरिवर्तन से p-मान ${\widehat {p}}=0.05$ का अनुमान लगाया जाता है, फिर सत्य के लिए 99% विश्वास अंतराल $p$ (वह जो सभी संभावित क्रमपरिवर्तनों को आज़माने का परिणाम होगा) है।

$\left[{\hat {p}}-z{\sqrt {\frac {0.05(1-0.05)}{10000}}},{\hat {p}}+z{\sqrt {\frac {0.05(1-0.05)}{10000}}}\right]=[0.045,0.055]$ .

दूसरी ओर, p-वैल्यू का अनुमान लगाने का उद्देश्य प्रायः यह तय करना होता है कि क्या $p\leq \alpha$ , जहां $\scriptstyle \ \alpha$ वह सीमा है जिस पर शून्य परिकल्पना अस्वीकृत कर दी जाएगी (सामान्यतः = $\alpha =0.05$ । उपरोक्त उदाहरण में, आत्मविश्वास अंतराल हमें केवल बताता है इसकी लगभग 50% संभावना है कि p-वैल्यू 0.05 से कम है, यानी यह पूरी तरह से अस्पष्ट है कि क्या शून्य परिकल्पना को $\alpha =0.05$ के स्तर पर अस्वीकृत किया जाना चाहिए।

यदि केवल यह जानना महत्वपूर्ण है कि क्या किसी दिए गए $p\leq \alpha$ के लिए $\alpha$ है, तो तब तक अनुकरण जारी रखना तर्कसंगत है जब तक कि त्रुटि की बहुत कम संभावना के साथ कथन $p\leq \alpha$ को सही या गलत के रूप में स्थापित नहीं किया जा सकता। $\epsilon$ त्रुटि की स्वीकार्य संभावना पर एक बाध्य ${\widehat {p}}>\alpha$ को देखते हुए (उस $p\leq \alpha$ को खोजने की संभावना जब वास्तव में या इसके विपरीत), कितने क्रमपरिवर्तन उत्पन्न करने का प्रश्न इस प्रश्न के रूप में देखा जा सकता है कि कब उत्पादन बंद करना है अब तक के सिमुलेशन के परिणामों के आधार पर क्रमपरिवर्तन, यह गारंटी देने के लिए कि निष्कर्ष (जो या तो $p\leq \alpha$ या $p>\alpha$ है) कम से कम $1-\epsilon$ जितनी बड़ी संभावना के साथ सही है। ( $\epsilon$ को सामान्यतः बेहद छोटा चुना जाएगा, उदाहरण के लिए 1/1000।) इसे प्राप्त करने के लिए स्टॉपिंग नियम विकसित किए गए हैं ^[11] जिसे न्यूनतम अतिरिक्त कम्प्यूटेशनल लागत के साथ सम्मिलित किया जा सकता है। वास्तव में, वास्तविक अंतर्निहित पी-वैल्यू के आधार पर यह प्रायः पाया जाएगा कि वर्चुअल निश्चितता के साथ किसी निर्णय पर पहुंचने से पहले आवश्यक सिमुलेशन की संख्या उल्लेखनीय रूप से छोटी है (उदाहरण के लिए 5 जितनी कम और प्रायः 100 से बड़ी नहीं)।

उदाहरण परीक्षण

विचरण का क्रमपरिवर्तन विश्लेषण

साहित्य

मूल संदर्भ:

आर. ए. फिशर|फिशर, आर.ए. (1935) प्रयोगों का डिज़ाइन, न्यूयॉर्क: हाफनर प्रकाशन
ई. जे. जी. पिटमैन|पिटमैन, ई. जे. जी. (1937) महत्व परीक्षण जो किसी भी आबादी के नमूनों पर लागू किए जा सकते हैं, रॉयल स्टैटिस्टिकल सोसाइटी सप्लीमेंट, 4: 119-130 और 225-32 (भाग I और II)। JSTOR 2984124 JSTOR 2983647
Pitman, E. J. G. (1938). "महत्व परीक्षण जो किसी भी जनसंख्या के नमूनों पर लागू किए जा सकते हैं। भाग III. विचरण परीक्षण का विश्लेषण". Biometrika. 29 (3–4): 322–335. doi:10.1093/biomet/29.3-4.322.

आधुनिक संदर्भ:

Collingridge, D.S. (2013). "परिमाणित डेटा विश्लेषण और क्रमपरिवर्तन परीक्षण पर एक प्राइमर". Journal of Mixed Methods Research. 7 (1): 79–95. doi:10.1177/1558689812454457. S2CID 124618343.
एजिंगटन, ई.एस., और ओन्घेना, p. (2007) रैंडमाइजेशन परीक्षण, चौथा संस्करण। न्यूयॉर्क: चैपमैन और हॉल/सीआरसी ISBN 9780367577711
गुड, फिलिप आई. (2005) परमुटेशन, पैरामीट्रिक और बूटस्ट्रैप परीक्षण ऑफ हाइपोथीसिस, तीसरा संस्करण, स्प्रिंगर साइंस+बिजनेस मीडिया ISBN 0-387-98898-X
Good, P (2002). "विनिमेयता की अवधारणा का विस्तार और उनके अनुप्रयोग". Journal of Modern Applied Statistical Methods. 1 (2): 243–247. doi:10.22237/jmasm/1036110240.
लूनबॉर्ग, क्लिफ। (1999) रेज़ैम्पलिंग द्वारा डेटा विश्लेषण, डक्सबरी प्रेस। ISBN 0-534-22110-6.
पेसारिन, एफ. (2001)। बहुभिन्नरूपी क्रमपरिवर्तन परीक्षण: जैवसांख्यिकी में अनुप्रयोगों के साथ, जॉन विले एंड संस। ISBN 978-0471496700
Welch, W. J. (1990). "क्रमपरिवर्तन परीक्षणों का निर्माण". Journal of the American Statistical Association. 85 (411): 693–698. doi:10.1080/01621459.1990.10474929.

कम्प्यूटेशनल विधि:

Mehta, C. R.; Patel, N. R. (1983). "आरएक्ससी आकस्मिकता तालिकाओं में फिशर का सटीक परीक्षण करने के लिए एक नेटवर्क एल्गोरिदम". Journal of the American Statistical Association. 78 (382): 427–434. doi:10.1080/01621459.1983.10477989.
Mehta, C. R.; Patel, N. R.; Senchaudhuri, P. (1988). "क्रमपरिवर्तनीय अनुमान में सटीक संभावनाओं का अनुमान लगाने के लिए नमूनाकरण का महत्व". Journal of the American Statistical Association. 83 (404): 999–1005. doi:10.1080/01621459.1988.10478691.
Gill, P. M. W. (2007). "रैखिक-सांख्यिकीय क्रमपरिवर्तन महत्व परीक्षणों में पी-मानों की कुशल गणना" (PDF). Journal of Statistical Computation and Simulation. 77 (1): 55–61. CiteSeerX 10.1.1.708.1957. doi:10.1080/10629360500108053. S2CID 1813706.