द्विपद परीक्षण

सांख्यिकी में, द्विपद परीक्षण प्रतिरूप डेटा का उपयोग करके दो श्रेणियों में टिप्पणियों के सैद्धांतिक रूप से अपेक्षित वितरण से विचलन के सांख्यिकीय महत्व का स्पष्ट परीक्षण है।

उपयोग
द्विपद परीक्षण संभाव्यता ($$\pi$$) के अतिरिक्त सांख्यिकीय परिकल्पना परीक्षण के लिए उपयोगी है:


 * $$H_0\colon\pi=\pi_0$$

जहाँ $$\pi_0$$ 0 और 1 के मध्य उपयोगकर्ता द्वारा परिभाषित मान है।

यदि आकार $$n$$ के प्रतिरूप में $$k$$ सफलताएँ हैं, जबकि हम $$n\pi_0$$, की अपेक्षा करते हैं तो द्विपद वितरण का सूत्र इस मान को खोजने की संभावना देता है:


 * $$\Pr(X=k)=\binom{n}{k}p^k(1-p)^{n-k}                                                                                                                                                                   $$

इस प्रकार से यदि शून्य परिकल्पना $$H_0$$ सत्य थी, तो सफलताओं की अपेक्षित संख्या $$n\pi_0$$ होगी। हम किसी भी परिणाम को चरम या उससे अधिक देखने की संभावना पर विचार करके इस परीक्षण के लिए अपना $$p$$-मान पाते हैं। एक-टेल्ड वाले परीक्षण के लिए, इसकी गणना करना सरल है। मान लीजिए हम परीक्षण करना चाहते हैं कि $$\pi<\pi_0$$ तो हमारा $$p$$-मान होगा,


 * $$p = \sum_{i=0}^k\Pr(X=i)=\sum_{i=0}^k\binom{n}{i}\pi_0^i(1-\pi_0)^{n-i}

$$ यदि हम $$k$$ से $$n$$ तक की सीमा के योग का उपयोग करके $$\pi>\pi_0$$ का परीक्षण कर रहे हैं तो एक समान गणना की जा सकती है।

इस प्रकार से दो-टेल्ड वाले परीक्षण के लिए $$p$$-मान की गणना करना थोड़ा अधिक जटिल है, क्योंकि यदि $$\pi_0\neq 0.5$$ है तो द्विपद वितरण सममित नहीं है। इसका तथ्य यह है कि हम एक-टेल्ड वाले परीक्षण से $$p$$-मान को दोगुना नहीं कर सकते हैं। याद रखें कि हम उन घटनाओं पर विचार करना चाहते हैं जो हमारे द्वारा दरसाई गई घटना के समान, या उससे अधिक, चरम हैं, इसलिए हमें इस संभावना पर विचार करना चाहिए कि हम ऐसी घटना देखेंगे जो $$X=k$$ के समान या उससे कम संभावित है, $$\mathcal{I}=\{i\colon\Pr(X=i)\leq \Pr(X=k)\}$$ को निरूपित करें ऐसी सभी घटनाएँ. फिर दो-टेल्ड वाले $$p$$-मान की गणना इस प्रकार की जाती है,


 * $$p = \sum_{i\in\mathcal{I}}\Pr(X=i)=\sum_{i\in\mathcal{I}}\binom{n}{i}\pi_0^i(1-\pi_0)^{n-i}$$

सामान्य उपयोग
द्विपद परीक्षण का एक सामान्य उपयोग वह स्तिथियों में होता है जहां शून्य परिकल्पना करता है कि दो श्रेणियां समान आवृत्ति $$H_0\colon\pi=0.5$$ के साथ होती हैं जैसे कॉइन टॉस का उपयोग किया जाता है । इस स्तिथि की श्रेणियों में अवलोकनों की महत्वपूर्ण संख्या दर्शाने के लिए तालिकाएँ व्यापक रूप से उपलब्ध होती हैं। चूंकि, इस प्रकार से नीचे दिए गए उदाहरण से पता चलता है, द्विपद परीक्षण इस स्तिथि तक ही सीमित नहीं है।

अतः जब दो से अधिक श्रेणियां प्राप्त होती है, और स्पष्ट परीक्षण की आवश्यकता होती है , तो द्विपद परीक्षण के अतिरिक्त बहुपद वितरण पर आधारित बहुपद परीक्षण का उपयोग किया जाना चाहिए।

उच्च प्रतिरूप
इस प्रकार से नीचे दिए गए उदाहरण में जैसे उच्च प्रतिरूपो के लिए, द्विपद वितरण को सुविधाजनक निरंतर वितरण द्वारा ठीक प्रकार से अनुमानित किया जाता है, और इन्हें वैकल्पिक परीक्षणों के आधार के रूप में उपयोग किया जाता है जो की गणना करने में अधिक तीव्र होते हैं, जैसे कि पियर्सन का ची-स्क्वायर परीक्षण और जी-परीक्षण है । चूंकि, छोटे प्रतिरूपो के लिए ये अनुमान टूट जाते हैं, और द्विपद परीक्षण का कोई विकल्प नहीं है।

अतः अधिक सामान्य (और अधिक आसान) सन्निकटन मानक सामान्य वितरण के माध्यम से होता है जिसमें दिए गए परीक्षण आँकड़े $$Z$$ का z-परीक्षण किया जाता है।


 * $$Z=\frac{k-n\pi}{\sqrt{n\pi(1-\pi)}}$$

जहाँ $$k$$ आकार के प्रतिरूप में देखी गई सफलताओं की संख्या है $$n$$ और $$\pi$$ शून्य परिकल्पना के अनुसार सफलता की संभावना है। निरंतरता सुधार प्रारंभ करके इस सन्निकटन में सुधार संभव है:


 * $$Z=\frac{k-n\pi\pm \frac{1}{2}}{\sqrt{n\pi(1-\pi)}}$$

अधिक उच्च के लिए $$n$$, यह निरंतरता सुधार महत्वहीन होता है, किन्तु मध्यवर्ती मानों के लिए, जहां स्पष्ट द्विपद परीक्षण कार्य नहीं करता है, यह अधिक सीमा तक स्पष्ट परिणाम देते है ।

चूंकि मापे गए प्रतिरूप अनुपात के संदर्भ में अंकन में $$\hat{p}$$, अनुपात के लिए शून्य परिकल्पना $$p_0$$, और प्रतिरूप आकार $$n$$, जहाँ $$\hat{p}=k/n$$ और $$p_0=\pi$$, कोई ऊपर दिए गए z-परीक्षण को पुनर्व्यवस्थित और लिख सकता है

अंश और हर दोनों में $$n$$ से विभाजित करके, जो एक ऐसा रूप है जो कुछ पाठकों के लिए अधिक परिचित हो सकता है।
 * $$ Z=\frac{ \hat{p}-p_0 } { \sqrt{ \frac{p_0(1-p_0)}{n} } }$$

उदाहरण
चूंकि मान लीजिए कि हमारे पास विशेष प्रकार के बोर्ड या पट्टे के खेल जैसे शतरंज, साँप सीढ़ी आदि है जो पासे के रोल पर निर्भर करता है और 6 को रोल करने को विशेष महत्व देता है। किन्तु विशेष गेम में, पासे को 235 बार रोल किया जाता है, और 6 पासे को 51 बार घुमाया जाता है। यदि पासा निष्पक्ष होता है, तो हम 6 आने की इच्छा करते है ।


 * $$235\times1/6 = 39.17$$ हमने अब देखा है कि यदि पासा उचित होता तो 6 की संख्या शुद्ध संयोग से हमारी अपेक्षा से अधिक है। किन्तु, क्या यह संख्या इतनी अधिक है कि हम पासे की निष्पक्षता के अतिरिक्त कोई निष्कर्ष निकाल सकें? इस प्रश्न का उत्तर द्विपद परीक्षण द्वारा दिया जा सकता है। हमारी शून्य परिकल्पना यह होगी कि पासा उचित है (पासे पर प्रत्येक संख्या आने की संभावना 1/6 है)।

द्विपद परीक्षण का उपयोग करके इस प्रश्न का उत्तर खोजने के लिए, हम द्विपद वितरण का उपयोग करते हैं


 * $$B(N=235, p=1/6)$$ संभाव्यता जन फलन के साथ तब $$f(k,n,p) = \Pr(k;n,p) = \Pr(X = k) = \binom{n}{k}p^k(1-p)^{n-k}$$.

जैसा कि हमने अपेक्षित मान से अधिक मान देखा है, हम शून्य के तहत 51 6 या उससे अधिक देखने की संभावना पर विचार कर सकते हैं, जो एक- और दो-टेल्ड वाले परीक्षण का गठन करेगा। एक-टेल्ड वाला परीक्षण (यहां हम मूल रूप से परीक्षण कर रहे हैं कि क्या यह पासा अपेक्षा से अधिक 6 उत्पन्न करने के प्रति पक्षपाती है)। शून्य परिकल्पना के तहत 235 के प्रतिरूप में 51 या अधिक 6s की संभावना की गणना करने के लिए हम ठीक 51 6s, ठीक 52 6s, और इसी तरह ठीक 235 6s प्राप्त करने की प्रायिकता तक की संभावनाओं को जोड़ते हैं:


 * $$\sum_{i=51}^{235} {235\choose i}p^i(1-p)^{235-i} = 0.02654$$

यदि हमारे पास 5% का महत्व स्तर है, तो यह परिणाम (0.02654 <5%) इंगित करता है कि हमारे पास ऐसे प्रमाणित हैं जो शून्य परिकल्पना को खारिज करने के लिए पर्याप्त महत्वपूर्ण हैं कि पासा उचित है।

सामान्यतः, जब हम किसी पासे की निष्पक्षता के लिए परीक्षण कर रहे होते हैं, तो हम यह भी रुचि रखते हैं कि क्या पासा अपेक्षा से कम 6 उत्पन्न करने के प्रति पक्षपाती है, न कि केवल अधिक 6 उत्पन्न करने के प्रति, जैसा कि हमने ऊपर एक-टेल्ड वाले परीक्षण में माना था। दोनों पूर्वाग्रहों पर विचार करने के लिए, हम एक- और दो-टेल्ड वाले परीक्षण|दो-टेल्ड वाले परीक्षण का उपयोग करते हैं। ध्यान दें कि ऐसा करने के लिए हम केवल एक-टेल्ड वाले p-मान को दोगुना नहीं कर सकते हैं जब तक कि घटना की संभावना 1/2 न होती हो । ऐसा इसलिए है क्योंकि द्विपद वितरण असममित हो जाता है क्योंकि संभावना 1/2 से विचलित हो जाती है। इस प्रकार से टू-टेल्ड p-मान को परिभाषित करने की दो विधियाँ हैं। किन्तु विधि इस संभावना का योग करना है कि अपेक्षित मान से किसी भी दिशा में घटनाओं की संख्या में कुल विचलन या तो अपेक्षित मान से अधिक या कम है। इस प्रकार से उदाहरण में ऐसा होने की संभावना 0.0437 है। दूसरी विधि में संभाव्यता की गणना करना सम्मिलित है कि अपेक्षित मान से विचलन प्रेक्षित मान की तुलना में असंभावित या अधिक असंभावित है, अर्थात संभाव्यता घनत्व कार्यों की तुलना से है । यह सूक्ष्म अंतर उत्पन्न कर सकता है, किन्तु इस उदाहरण में 0.0437 की समान संभावना उत्पन्न होती है। दोनों स्तिथियों में, दो-टेल्ड वाले परीक्षण से 5% स्तर पर महत्व का पता चलता है, यह दर्शाता है कि देखी गई 6 की संख्या 5% स्तर पर अपेक्षित संख्या की तुलना में इस पासे के लिए अधिक भिन्न थी।

सांख्यिकीय सॉफ्टवेयर पैकेज में
सांख्यिकीय उद्देश्यों के लिए उपयोग किए जाने वाले अधिकांश सॉफ़्टवेयर में द्विपद परीक्षण उपलब्ध हैं। जैसे


 * आर (प्रोग्रामिंग भाषा) में उपरोक्त उदाहरण की गणना निम्नलिखित कोड से की जा सकती है:
 * (एक-टेल्ड परीक्षण)
 * (एक-टेल्ड परीक्षण)
 * (दो-टेल्ड परीक्षण)


 * जावा (प्रोग्रामिंग भाषा) में अपाचे कॉमन्स लाइब्रेरी का उपयोग करना:
 * (एक-टेल्ड परीक्षण)
 * (एक-टेल्ड परीक्षण)
 * (दो-टेल्ड परीक्षण)


 * एसएएस (सॉफ्टवेयर) में परीक्षण फ्रीक्वेंसी प्रक्रिया में उपलब्ध होते है
 * एसपीएसएस में परीक्षण का उपयोग मेनू विश्लेषण > नॉनपैरामीट्रिक परीक्षण > द्विपद के माध्यम से किया जा सकता है
 * पायथन (प्रोग्रामिंग भाषा) में, SciPy का उपयोग करें binomtest:
 * (एक-टेल्ड परीक्षण)
 * (दो-टेल्ड परीक्षण)
 * मैटलैब में, myBinomTest का उपयोग करें, जो गणित कार्य समुदाय फ़ाइल एक्सचेंज वेबसाइट के माध्यम से उपलब्ध होते है। मेरा बिनोमटेस्ट किसी सफलता की अनुमानित संभावना को देखते हुए अवलोकनों के लिए सीधे p-मान की गणना करेगा।  (सामान्यतः दो-टेल्ड वाला, किन्तु वैकल्पिक रूप से एक-टेल्ड वाला परीक्षण भी किया जा सकता है)।
 * स्टाटा में, बिटेस्ट का उपयोग करें।
 * माइक्रोसॉफ्ट एक्सेल में, Binom.Dist का उपयोग करते है । फलन पैरामीटर लेता है (सफलताओं की संख्या, परीक्षण, सफलता की संभावना, संचयी)। "संचयी" मापदंड बूलियन सत्य या असत्य लेता है, जिसमें ट्रू अधिक सफलताएं ( बाएं-टेल्ड वाला परीक्षण) खोजने की संचयी संभावना देता है, और अधिक सफलताएँ मिलने की स्पष्ट संभावना असत्य है।

यह भी देखें

 * p-मान
 * लेडिंग टेस्टिंग टी परीक्षण

बाहरी संबंध

 * Binomial Probability Calculator