क्रुस्कल-वालिस विचरण का एकतरफा विश्लेषण

क्रुस्कल-वालिस रैंकों द्वारा परीक्षण, क्रुस्कल-वालिस एच परीक्षण (विलियम क्रुस्कल और डब्ल्यू एलन वालिस के नाम पर), या रैंकों पर एक तरफ़ा एनोवा एक गैर-पैरामीट्रिक सांख्यिकी है। यह परीक्षण करने के लिए गैर-पैरामीट्रिक विधि है कि नमूने एक ही वितरण से उत्पन्न होते हैं या नहीं।  इसका उपयोग समान या भिन्न नमूना आकार के दो या दो से अधिक स्वतंत्र नमूनों की तुलना करने के लिए किया जाता है। यह मान-व्हिटनी यू परीक्षण | मान-व्हिटनी यू परीक्षण का विस्तार करता है, जिसका उपयोग केवल दो समूहों की तुलना करने के लिए किया जाता है। क्रुस्कल-वालिस परीक्षण का पैरामीट्रिक समतुल्य एकतरफा एनोवा है। विचरण का एकतरफा विश्लेषण (एनोवा)।

एक महत्वपूर्ण क्रुस्कल-वालिस परीक्षण इंगित करता है कि कम से कम एक नमूना स्टोचैस्टिक प्रभुत्व एक अन्य नमूना है। परीक्षण यह नहीं पहचानता है कि यह स्टोकास्टिक प्रभुत्व कहां होता है या स्टोकास्टिक प्रभुत्व कितने समूहों के जोड़े के लिए प्राप्त होता है। स्टोकेस्टिक प्रभुत्व के लिए विशिष्ट नमूना जोड़े का विश्लेषण करने के लिए, डन का परीक्षण, बोन्फेरोनी सुधार के साथ जोड़ीदार मान-व्हिटनी परीक्षण, या अधिक शक्तिशाली लेकिन कम प्रसिद्ध कोनोवर-ईमान परीक्षण कभी-कभी उपयोग किए जाते हैं।

चूंकि यह एक गैरपारंपरिक विधि है, क्रुस्कल-वालिस परीक्षण विचरण के समान एकतरफा विश्लेषण के विपरीत, अवशिष्टों के सामान्य वितरण को नहीं मानता है। यदि शोधकर्ता माध्यिका में किसी भी अंतर को छोड़कर, सभी समूहों के लिए एक समान आकार और मापित वितरण की धारणा बना सकता है, तो अशक्त परिकल्पना यह है कि सभी समूहों की माध्यिकाएँ समान हैं, और वैकल्पिक परिकल्पना यह है कि कम से कम एक जनसंख्या माध्यक एक समूह का कम से कम एक अन्य समूह की जनसंख्या माध्यिका से भिन्न है। अन्यथा, यह कहना असंभव है कि शून्य परिकल्पना की अस्वीकृति स्थान या समूह फैलाव में बदलाव से आती है या नहीं। यही समस्या मान-व्हिटनी परीक्षण के साथ भी होती है।

विधि
\begin{align} H & = \frac{12}{N(N+1)}\sum_{i=1}^g n_i \left(\bar{r}_{i\cdot} - \frac{N+1}{2}\right)^2 \\ & = \frac{12}{N(N+1)}\sum_{i=1}^g n_i \bar{r}_{i\cdot }^2 -\ 3(N+1) \end{align} $$ अंतिम सूत्र में केवल औसत रैंक के वर्ग शामिल हैं।
 * 1) सभी समूहों के सभी डेटा को एक साथ रैंक करें; यानी समूह सदस्यता को अनदेखा करते हुए डेटा को 1 से N तक रैंक करें। किसी भी बंधे हुए मूल्यों को असाइन करें, उन्हें प्राप्त होने वाले रैंकों का औसत अगर वे बंधे नहीं होते।
 * 2) परीक्षण आँकड़ा इसके द्वारा दिया गया है
 * $$H = (N-1)\frac{\sum_{i=1}^g n_i(\bar{r}_{i\cdot} - \bar{r})^2}{\sum_{i=1}^g\sum_{j=1}^{n_i}(r_{ij} - \bar{r})^2},$$ कहाँ
 * 1) *$$N$$ सभी समूहों में प्रेक्षणों की कुल संख्या है
 * 2) *$$g$$ समूहों की संख्या है
 * 3) *$$n_i$$ समूह में टिप्पणियों की संख्या है $$i$$
 * 4) *$$r_{ij}$$ प्रेक्षण की कोटि (सभी प्रेक्षणों के बीच) है $$j$$ समूह से $$i$$
 * 5) *$$\bar{r}_{i\cdot} = \frac{\sum_{j=1}^{n_i}{r_{ij}}}{n_i}$$ समूह में सभी अवलोकनों का औसत रैंक है $$i$$
 * 6) *$$\bar{r} =\tfrac 12 (N+1)$$ सभी का औसत है $$r_{ij}$$.
 * 7) यदि डेटा में अभिव्यक्ति के भाजक के लिए कोई संबंध नहीं है $$H$$ बिल्कुल सही है $$(N-1)N(N+1)/12$$ और $$\bar{r}=\tfrac{N+1}{2}$$. इस प्रकार
 * 1) संबंधों के लिए एक सुधार यदि पिछले बिंदु में वर्णित शॉर्ट-कट सूत्र का उपयोग करके विभाजित करके किया जा सकता है $$H$$ द्वारा $$1 - \frac{\sum_{i=1}^G (t_i^3 - t_i)}{N^3-N}$$, जहां G अलग-अलग बंधी रैंकों के समूहों की संख्या है, और ti समूह i के भीतर बंधे हुए मानों की संख्या है जो एक विशेष मूल्य पर बंधे हैं। यह सुधार आमतौर पर एच के मूल्य में थोड़ा अंतर करता है जब तक कि बड़ी संख्या में संबंध न हों।
 * 2) अंत में, अशक्त परिकल्पना को अस्वीकार करने या न करने का निर्णय तुलना करके किया जाता है $$H$$ एक महत्वपूर्ण मूल्य के लिए $$H_c$$ किसी दिए गए महत्व या अल्फा स्तर के लिए किसी तालिका या सॉफ़्टवेयर से प्राप्त किया गया। अगर $$H$$ के अपेक्षा बड़ा है $$H_c$$, शून्य परिकल्पना अस्वीकृत की जाती है। यदि संभव हो (कोई संबंध नहीं, नमूना बहुत बड़ा नहीं है) तो तुलना करनी चाहिए $$H$$ के सटीक वितरण से प्राप्त महत्वपूर्ण मूल्य के लिए $$H$$. अन्यथा, एच के वितरण को स्वतंत्रता की जी-1 डिग्री के साथ ची-वर्ग वितरण द्वारा अनुमानित किया जा सकता है। यदि कुछ $$n_i$$ मान छोटे हैं (अर्थात, 5 से कम) का सटीक संभाव्यता वितरण $$H$$ इस ची-स्क्वायर वितरण से काफी अलग हो सकता है। यदि ची-वर्ग संभाव्यता बंटन की तालिका उपलब्ध है, तो ची-वर्ग का महत्वपूर्ण मान, $$\chi^2_{\alpha: g-1}$$, g − 1 स्वतंत्रता की डिग्री (सांख्यिकी) पर तालिका दर्ज करके और वांछित सांख्यिकीय महत्व या अल्फा स्तर के तहत देख कर पाया जा सकता है।
 * 3) यदि आँकड़ा महत्वपूर्ण नहीं है, तो नमूनों के बीच स्टोचैस्टिक प्रभुत्व का कोई प्रमाण नहीं है। हालांकि, यदि परीक्षण महत्वपूर्ण है तो कम से कम एक नमूना दूसरे नमूने पर स्थिर रूप से हावी हो जाता है। इसलिए, एक शोधकर्ता अलग-अलग नमूना जोड़े के बीच नमूना विरोधाभासों का उपयोग कर सकता है, या डन के परीक्षण का उपयोग करके पोस्ट हॉक परीक्षण कर सकता है, जो (1) क्रुस्कल-वालिस परीक्षण के समान रैंकिंग को ठीक से नियोजित करता है, और (2) शून्य द्वारा निहित पूलित भिन्नता को ठीक से नियोजित करता है। क्रुस्कल-वालिस परीक्षण की परिकल्पना यह निर्धारित करने के लिए कि कौन से नमूना जोड़े महत्वपूर्ण रूप से भिन्न हैं। एकाधिक नमूना विरोधाभास या परीक्षण करते समय, टाइप I त्रुटि दर बढ़ जाती है, जिससे एकाधिक तुलना समस्या के बारे में चिंता बढ़ जाती है।

सटीक संभाव्यता तालिका
क्रस्कल-वालिस परीक्षण के लिए सटीक संभावनाओं की गणना करने के लिए बड़ी मात्रा में कंप्यूटिंग संसाधनों की आवश्यकता होती है। मौजूदा सॉफ़्टवेयर लगभग 30 प्रतिभागियों से कम नमूना आकार के लिए केवल सटीक संभावनाएं प्रदान करता है। ये सॉफ़्टवेयर प्रोग्राम बड़े नमूना आकार के लिए स्पर्शोन्मुख सन्निकटन पर निर्भर करते हैं।

बड़े नमूना आकारों के लिए सटीक संभाव्यता मान उपलब्ध हैं। स्परियर (2003) ने 45 प्रतिभागियों के रूप में बड़े नमूनों के लिए सटीक संभाव्यता सारणी प्रकाशित की। मेयर और सीमैन (2006) ने 105 प्रतिभागियों के रूप में बड़े नमूनों के लिए सटीक संभाव्यता वितरण का उत्पादन किया।

एच
का सटीक वितरण चोई एट अल। के सटीक वितरण की गणना करने के लिए विकसित की गई दो विधियों की समीक्षा की $$H$$, एक नया प्रस्तावित किया, और सटीक वितरण की तुलना इसके ची-स्क्वायर सन्निकटन से की।

महीने के अनुसार ओजोन के स्तर में अंतर के लिए परीक्षण
निम्न उदाहरण चेम्बर्स एट अल से डेटा का उपयोग करता है। न्यूयॉर्क शहर में 1 मई से 30 सितंबर, 1973 तक ओजोन की दैनिक रीडिंग पर। डेटा R डेटा सेट वायु गुणवत्ता में हैं, और विश्लेषण R फ़ंक्शन kruskal.test के लिए प्रलेखन में शामिल है। महीने के अनुसार ओजोन मूल्यों के बॉक्सप्लॉट चित्र में दिखाए गए हैं।

क्रुस्कल-वालिस परीक्षण में एक महत्वपूर्ण अंतर (p = 6.901e-06) मिलता है जो दर्शाता है कि ओजोन 5 महीनों के बीच भिन्न होता है।

यह निर्धारित करने के लिए कि कौन से महीने अलग-अलग हैं, कई परिकल्पना परीक्षण के लिए बोनफेरोनी (या अन्य) सुधार के साथ, महीनों की प्रत्येक जोड़ी के लिए विलकॉक्सन परीक्षण का उपयोग करके पोस्ट-हॉक परीक्षण किया जा सकता है।

पोस्ट-हॉक परीक्षणों से संकेत मिलता है कि, कई परीक्षण के लिए बोनफेरोनी सुधार के बाद, निम्नलिखित अंतर महत्वपूर्ण हैं (समायोजित पी <0.05)।


 * माह 5 बनाम माह 7 और 8
 * माह 9 बनाम माह 7 और 8

यह भी देखें

 * फ्रीडमैन परीक्षण
 * जोंखीरे का चलन परीक्षण

बाहरी संबंध

 * An online version of the test