मान-व्हिटनी यू परीक्षण

From Vigyanwiki

आँकड़ों में, मान-व्हिटनी U परीक्षण (जिसे मान-व्हिटनी-विलकॉक्सन (एमडब्ल्यूडब्ल्यू/एमडब्ल्यूयू), विल्कोक्सन क्रम-योग परीक्षण या विल्कोक्सन-मान-व्हिटनी परीक्षण भी कहा जाता है) शून्य परिकल्पना का एक अप्राचली सांख्यिकी परीक्षण है। जो यादृच्छिक रूप से, दो जनों से चयनित मान X और Y, X के Y से अधिक होने की संभावना, Y के X से अधिक होने की संभावना के बराबर है।

दो आश्रित प्रतिदर्शो पर उपयोग किए जाने वाले अप्राचली परीक्षण चिह्न परीक्षण और विल्कोक्सन चिह्न-क्रम परीक्षण हैं।

धारणाएं और परिकल्पनाओं का औपचारिक विवरण

यद्यपि मान और व्हिटनी[1]ने वैकल्पिक परिकल्पना के साथ निरंतर प्रतिक्रियाओं की धारणा के अंतर्गत मान-व्हिटनी U परीक्षण विकसित किया है कि एक वितरण दूसरे की तुलना में स्टोकेस्टिक रूप से अधिक है, शून्य परिकल्पना और वैकल्पिक परिकल्पना तैयार करने के कई अन्य तरीके हैं जैसे मान-व्हिटनी U परीक्षण एक वैध परीक्षण देगा।[2]

एक बहुत ही सामान्य सूत्रीकरण यह मान लेना है कि:

  1. दोनों समूहों के सभी अवलोकन एक दूसरे से स्वतंत्र हैं,
  2. प्रतिक्रियाएँ कम-से-कम क्रमिक हैं (अर्थात्, कम-से-कम यह कह सकते हैं कि किन्हीं दो प्रेक्षणों में से कौन अधिक है),
  3. शून्य परिकल्पना के अंतर्गत H0, दोनों जनों का वितरण समान है।[3]
  4. वैकल्पिक परिकल्पना H1 यह है कि वितरण समान नहीं हैं।

सामान्य सूत्रीकरण के अंतर्गत, परीक्षण केवल तभी सुसंगत होता है जब H1 के अंतर्गत निम्नलिखित होता है:

  1. जनसंख्या X के किसी अवलोकन की जनसंख्या Y के अवलोकन से अधिक होने की संभावना Y के किसी अवलोकन की जनसंख्या; अर्थात, P(X > Y) ≠ P(Y > X) या P(X > Y) + 0.5 · P(X = Y) ≠ 0.5 हैं।
  2. उपरोक्त सामान्य सूत्रीकरण की तुलना में अधिक पूर्णतः मान्यताओं के अंतर्गत, उदाहरण के लिए, यदि प्रतिक्रियाओं को निरंतर माना जाता है और विकल्प को स्थान परिवर्तन तक सीमित रखा जाता है, अर्थात, F1(x) = F2(x + δ), तो हम एक महत्वपूर्ण व्याख्या कर सकते हैं मान-व्हिटनी U परीक्षण मध्यस्थों में अंतर दर्शाता है। इस स्थान परिवर्तन की धारणा के अंतर्गत, हम मान-व्हिटनी U परीक्षण की व्याख्या यह आकलन करने के लिए भी कर सकते हैं कि क्या दो जनों के मध्य केंद्रीय प्रवृत्ति में अंतर का होजेस-लेहमैन अनुमान शून्य से भिन्न है। इस दो-प्रतिदर्श समस्याओं के लिए होजेस-लेहमैन का अनुमान पहले प्रतिदर्श में एक अवलोकन और दूसरे प्रतिदर्श में एक अवलोकन के मध्य सभी संभावित अंतरों का माध्य है।

अन्यथा, यदि दोनों प्रतिदर्शों के परिक्षेपण और वितरण के आकार भिन्न हैं, तो मान-व्हिटनी U परीक्षण मध्यस्थों के परीक्षण में विफल रहता है। ऐसे उदाहरण दिखाना संभव है जहां माध्यिकाएं संख्यात्मक रूप से बराबर होती हैं, जबकि परीक्षण एक छोटे p-मान के साथ शून्य परिकल्पना को अस्वीकार करता है।[4] [5] [6]

मान-व्हिटनी U परीक्षण/विल्कोक्सन क्रम-योग परीक्षण विल्कोक्सन चिह्न-क्रम परीक्षण के समान नहीं है, हालांकि दोनों अप्राचली सांख्यिकी हैं और इसमें क्रमों का योग सम्मिलित है। मान-व्हिटनी U परीक्षण स्वतंत्र प्रतिदर्शों पर अनुप्रयुक्त किया जाता है। विल्कोक्सन चिह्न-क्रम परीक्षण सुमेलित या आश्रित प्रतिदर्शों पर अनुप्रयुक्त किया जाता है।

U प्रतिदर्शज

मान लीजिए कि एक आई.आई.डी से प्रतिदर्श और एक आई.आई.डी. से प्रतिदर्श है सेऔर दोनों प्रतिदर्श एक दूसरे से स्वतंत्र हैं। संबंधित मान-व्हिटनी U सांख्यिकी को इस प्रकार परिभाषित किया गया हैː

के साथ


आरओसी वक्रों के लिए क्षेत्र के अंतर्गत वक्र (AUC) प्रतिदर्शज

U प्रतिदर्शज गृहीता प्रचालन विशेषता वक्र (AUC) के अंतर्गत क्षेत्र के बराबर है जिसकी गणना सरलता से की जा सकती है।[7][8]

ध्यान दें कि यह उपरोक्त अनुभाग से सामान्य भाषा प्रभाव आकार के समान परिभाषा है। अर्थात: संभावना है कि एक वर्गीकरणकर्ता यादृच्छिक रूप से चुने गए धनात्मक उदाहरण को यादृच्छिक रूप से चुने गए ऋणात्मक से अधिक क्रम देगा (यह मानते हुए कि 'धनात्मक' क्रम 'ऋणात्मक' से अधिक है)।[9]

इसके संभाव्य रूप के कारण, U सांख्यिकी को दो से अधिक वर्गों के लिए वर्गीकरणकर्ता की पृथक्करण शक्ति के माप के लिए सामान्यीकृत किया जा सकता है:[10]

जहाँ c वर्गों की संख्या है और Rk,ℓ , AUCk, का पद, ℓ केवल वर्ग k और ℓ से संबंधित वस्तुओं के श्रेणीक्रम पर विचार करता है (अर्थात, अन्य सभी वर्गों से संबंधित वस्तुओं को अवहेलना कर दिया जाता है) वर्गीकरणकर्ता के अनुमान के अनुसार कक्षा k से संबंधित उन वस्तुओं की संभावना है। AUCk,k सदैव शून्य होगा, परन्तु, दो-वर्गों की स्थिति के विपरीत, सामान्यतः AUCk, ≠ AUC,k, यही कारण है कि M, AUC,k और AUCk, के औसत का उपयोग करते हुए, सभी (k,ℓ) युग्मों का योग मापता है।

गणना

परीक्षण में एक प्रतिदर्शज की गणना सम्मिलित है, जिसे सामान्यतः U कहा जाता है, जिसका वितरण शून्य परिकल्पना के अंतर्गत जाना जाता है। छोटे प्रतिदर्शों की स्थिति में, वितरण सारणीबद्ध है, परन्तु ~20 से ऊपर के प्रतिदर्श आकारों के लिए, सामान्य वितरण का उपयोग करके अनुमान लगाना काफी अच्छा है। कुछ पुस्तकें U के समतुल्य आँकड़ों को सारणीबद्ध करती हैं, जैसे कि U के बजाय प्रतिदर्शों में से एक में क्रम का योग हैं।

मान-व्हिटनी U अधिकांश आधुनिक सांख्यिकीय संवेष्टको में सम्मिलित है। विशेषकर छोटे प्रतिदर्शों के लिए, इसकी गणना हाथ से भी सरलता से की जा सकती है। इसे करने की दो विधियाँ हैं।

पहली विधिː

प्रेक्षणों के दो छोटे समुच्चयों की तुलना करने के लिए, एक प्रत्यक्ष विधि त्वरित है और U सांख्यिकी के अर्थ में अंतर्दृष्टि देती है, जो सभी युग्‍मानूसार प्रतियोगिताओं में जीत की संख्या से मेल खाती है (नीचे दिए गए उदाहरणों के अंतर्गत कछुआ और खरगोश का उदाहरण देखें)। एक समुच्चय में प्रत्येक अवलोकन के लिए, दूसरे समुच्चय में किसी भी अवलोकन पर यह पहला मान जीतने की संख्या की गणना करें (यदि यह पहला बड़ा है तो दूसरा मान हार जाता है)। किसी भी प्रतियोगिता के लिए 0.5 की गणना करें। पहले समुच्चय के लिए, जीत और प्रतियोगिता का योग U (अर्थात: ) है। दूसरे समुच्चय के लिए U (अर्थात: ) इसका विपरीत है।

द्वितीय विधि:

बड़े प्रतिदर्शों के लिए:

  1. सभी अवलोकनों के लिए संख्यात्मक क्रम निर्दिष्ट करें (दोनों समूहों से अवलोकनों को एक समुच्चय में रखें), सबसे छोटे मान के लिए 1 से प्रारंभ करें। जहां बंधे हुए मानों के समूह हैं, असमायोजित श्रेणीक्रम के मध्य बिंदु के बराबर एक क्रम निर्दिष्ट करें (उदाहरण के लिए, (3, 5, 5, 5, 5, 8) का क्रम (1, 3.5, 3.5, 3.5, 3.5, 6) हैं, जहां असमायोजित क्रम (1, 2, 3, 4, 5, 6)) होगा।
  2. अब, प्रतिदर्श 1 से प्राप्त अवलोकनों के लिए क्रम जोड़ें। प्रतिदर्श 2 में क्रमों का योग अब निर्धारित किया गया है, क्योंकि सभी क्रमों का योग N(N + 1)/2 के बराबर है जहां N प्रेक्षणों की कुल संख्या है।
  3. फिर U द्वारा दिया गया है:[11]
जहां n1 प्रतिदर्श 1 के लिए प्रतिदर्श आकार है और R1 प्रतिदर्श 1 में क्रमों का योग है।
ध्यान दें कि इससे कोई फर्क नहीं पड़ता कि दो प्रतिदर्शों में से किसे प्रतिदर्श 1 माना जाता है। U के लिए एक समान रूप से मान्य सूत्र है
U1 और U2 का छोटा मान महत्व तालिकाओं से परामर्श करते समय उपयोग किया जाता है। दो मानों का योग किसके द्वारा दिया गया हैː
यह जानते हुए कि R1 + R2 = N(N + 1)/2 और N = n1 + n2, और कुछ बीजगणित करने पर, हम पाते हैं कि योग हैː
U1 + U2 = n1n2.

गुणधर्म

U का अधिकतम मान दो प्रतिदर्शों (अर्थात: ) के लिए प्रतिदर्श आकार का उत्पाद है, ऐसी स्थिति में, अन्य U, 0 होगा।

उदाहरण

गणना विधियों का उदाहरण

मान लीजिए कि ईसप अपने उत्कृष्ट प्रयोग से असंतुष्ट है जिसमें एक कछुआ दौड़ में एक खरगोश को हराता पाया गया था और यह पता लगाने के लिए एक महत्व परीक्षण करने का निश्चय करता है कि क्या परिणाम सामान्य रूप से कछुओं और खरगोशों तक बढ़ाए जा सकते हैं। वह 6 कछुओं और 6 खरगोशों का एक प्रतिदर्श एकत्र करता है और उन सभी को एक ही बार में अपनी दौड़ में दौड़ाता है। जिस क्रम में वे समापन पद तक पहुँचते हैं (उनका स्थिति क्रम, समापन रेखा को पार करने वाली पहली से आखिरी तक) इस प्रकार है, एक कछुए के लिए T और एक खरगोश के लिए H लिखना है:

T H H H H H T T T T T H

U का मान क्या है?

  • प्रत्यक्ष विधि का उपयोग करते हुए, हम प्रत्येक कछुए को बारी-बारी से लेते हैं और उसके द्वारा मारे गए खरगोशों की संख्या गिनते हैं, जिससे 6, 1, 1, 1, 1, 1 प्राप्त होता है, जिसका अर्थ, UT = 11 है। वैकल्पिक रूप से, हम प्रत्येक खरगोश को बारी-बारी से ले सकते हैं और यह गणना करें कि यह कितने कछुओं को हराता है। इस स्थिति में, हमें 5, 5, 5, 5, 5, 0 मिलता है इसलिए UH = 25 है। ध्यान दें कि U के लिए इन दो मानों का योग = 36 है, जो 6×6 है।
  • अप्रत्यक्ष विधि का उपयोग करना:
जानवरों को पाठ्यक्रम पूर्ण करने में लगने वाले समय तक क्रम दें, इसलिए पहले जानवर को आवास क्रम 12, दूसरे क्रम को 11 दें, इत्यादि।
कछुओं द्वारा प्राप्त क्रमों का योग 12 + 6 + 5 + 4 + 3 + 2 = 32 है।
इसलिए UT = 32 − (6×7)/2 = 32 − 21 = 11 (विधि एक के समान) है।
खरगोशों द्वारा प्राप्त क्रमों का योग 11 + 10 + 9 + 8 + 7 + 1 = 46 है, जिससे UH = 46 − 21 = 25 होता है।

सॉफ्टवेयर कार्यान्वयन

कई सॉफ़्टवेयर संवेष्टको में, मैन-व्हिटनी U परीक्षण (उचित विकल्पों के विरुद्ध समान वितरण की परिकल्पना) को अनुचित तरीके से प्रलेखित किया गया है। कुछ संवेष्टक संबंधों का अनुचित तरीके से विवेचन करते हैं या स्पर्शोन्मुख तकनीकों (उदाहरण के लिए, निरंतरता के लिए सुधार) का दस्तावेज़ीकरण करने में विफल रहते हैं। 2000 की समीक्षा में निम्नलिखित कुछ संवेष्टको पर चर्चा की गईː

इतिहास

यह प्रतिदर्शज 1914 में जर्मन गुस्ताव देउक्लर के लेख[14]में छपा (विचरण में एक लुप्त शब्द के साथ) है।

1945 में एक एकल पत्र में, फ्रैंक विलकॉक्सन ने [15] एक-प्रतिदर्श चिह्‍नत क्रम और दो-प्रतिदर्श क्रम योग परीक्षण दोनों का प्रस्ताव रखा, इसके पूरक विकल्प के विरुद्ध एक बिंदु शून्य-परिकल्पना के साथ महत्व के परीक्षण में (अर्थात्, बराबर बनाम बराबर नहीं) है। हालाँकि, उन्होंने उस लेख्य में समान-प्रतिदर्श आकार की स्थिति के लिए केवल कुछ बिंदुओं को सारणीबद्ध किया था (हालांकि बाद के एक लेख्य में उन्होंने बड़ी तालिकाएँ दी थीं)।

प्रतिदर्शज का गहन विश्लेषण, जिसमें यादृच्छिक रूप से प्रतिदर्श आकारों के लिए पश्च संभावनाओं की गणना की अनुमति देने वाली पुनरावृत्ति सम्मिलित थी और आठ या उससे कम के प्रतिदर्श आकारों के लिए तालिकाएँ 1947 में हेनरी मान और उनके छात्र डोनाल्ड रैनसम व्हिटनी के लेख में दिखाई दीं।[1] इस लेख में वैकल्पिक परिकल्पनाओं पर चर्चा की गई है, जिसमें एक प्रसंभाव्य क्रमीकरण सम्मिलित है (जहां संचयी वितरण कार्य बिंदुवार असमानता FX(t) < FY(t)) को संतुष्ट करते हैं। इस लेख्य ने पहले चार क्षणों की भी गणना की और अशक्त परिकल्पना के अंतर्गत सांख्यिकी की सीमित सामान्यता को स्थापित किया, ताकि यह स्थापित हो सके कि यह असमान रूप से वितरण-मुक्त है।







यह भी देखें

  • लेपेज परीक्षण
  • कुकोनी परीक्षण
  • कोलमोगोरोव-स्मिर्नोव परीक्षण
  • विलकॉक्सन चिह्‍नत-क्रम परीक्षण
  • क्रुस्कल-वालिस विचरण का एकदिशिक विश्लेषण
  • ब्रूनर-मुंजेल परीक्षण
  • आनुपातिक अंतर प्रतिरूप

टिप्पणियाँ

  1. 1.0 1.1 Mann, Henry B.; Whitney, Donald R. (1947). "On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other". Annals of Mathematical Statistics. 18 (1): 50–60. doi:10.1214/aoms/1177730491. MR 0022058. Zbl 0041.26103.
  2. Fay, Michael P.; Proschan, Michael A. (2010). "Wilcoxon–Mann–Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules". Statistics Surveys. 4: 1–39. doi:10.1214/09-SS051. MR 2595125. PMC 2857732. PMID 20414472.
  3. [1], See Table 2.1 of Pratt (1964) "Robustness of Some Procedures for the Two-Sample Location Problem." Journal of the American Statistical Association. 59 (307): 655–680. If the two distributions are normal with the same mean but different variances, then Pr[X > Y] = Pr[Y < X] but the size of the Mann–Whitney test can be larger than the nominal level. So we cannot define the null hypothesis as Pr[X > Y] = Pr[Y < X] and get a valid test.
  4. Divine, George W.; Norton, H. James; Barón, Anna E.; Juarez-Colunga, Elizabeth (2018). "The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians". The American Statistician. 72 (3): 278–286. doi:10.1080/00031305.2017.1305291.
  5. Conroy, Ronán (2012). "What Hypotheses do "Nonparametric" Two-Group Tests Actually Test?". Stata Journal. 12 (2): 182–190. doi:10.1177/1536867X1201200202. S2CID 118445807. Retrieved 24 May 2021.
  6. Hart, Anna (2001). "Mann–Whitney test is not just a test of medians: differences in spread can be important". BMJ. 323 (7309): 391–393. doi:10.1136/bmj.323.7309.391.
  7. Hanley, James A.; McNeil, Barbara J. (1982). "एक रिसीवर ऑपरेटिंग (आरओसी) वक्र विशेषता के तहत क्षेत्र का अर्थ और उपयोग". Radiology. 143 (1): 29–36. doi:10.1148/radiology.143.1.7063747. PMID 7063747.
  8. Mason, Simon J.; Graham, Nicholas E. (2002). "Areas beneath the relative operating characteristics (ROC) and relative operating levels (ROL) curves: Statistical significance and interpretation" (PDF). Quarterly Journal of the Royal Meteorological Society. 128 (584): 2145–2166. Bibcode:2002QJRMS.128.2145M. CiteSeerX 10.1.1.458.8392. doi:10.1256/003590002320603584. S2CID 121841664.
  9. Fawcett, Tom (2006); An introduction to ROC analysis, Pattern Recognition Letters, 27, 861–874.
  10. Hand, David J.; Till, Robert J. (2001). "एकाधिक वर्ग वर्गीकरण समस्याओं के लिए आरओसी वक्र के तहत क्षेत्र का एक सरल सामान्यीकरण". Machine Learning. 45 (2): 171–186. doi:10.1023/A:1010920819831.
  11. Zar, Jerrold H. (1998). बायोस्टैटिस्टिकल विश्लेषण. New Jersey: Prentice Hall International, INC. p. 147. ISBN 978-0-13-082390-8.
  12. "MannWhitneyUTest (Apache Commons Math 3.3 API)". commons.apache.org.
  13. "JuliaStats/HypothesisTests.jl". GitHub. 30 May 2021.
  14. Kruskal, William H. (September 1957). "Historical Notes on the Wilcoxon Unpaired Two-Sample Test". Journal of the American Statistical Association. 52 (279): 356–360. doi:10.2307/2280906. JSTOR 2280906.
  15. Wilcoxon, Frank (1945). "Individual comparisons by ranking methods". Biometrics Bulletin. 1 (6): 80–83. doi:10.2307/3001968. hdl:10338.dmlcz/135688. JSTOR 3001968.
Cite error: <ref> tag with name "H1976" defined in <references> is not used in prior text.


संदर्भ


बाहरी संबंध