सांख्यिकीय परिकल्पना परीक्षण

एक सांख्यिकीय परिकल्पना परीक्षण सांख्यिकीय अनुमान का एक प्रणाली है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि क्या डेटा पर्याप्त रूप से एक विशेष परिकल्पना का समर्थन करता है।

परिकल्पना परीक्षण हमें जनसंख्या मापदंडों के बारे में संभाव्य कथन करने की अनुमति देता है।

प्रारंभिक उपयोग
जबकि परिकल्पना परीक्षण 20वीं शताब्दी के प्रारंभ में लोकप्रिय हुआ था, प्रारंभिक रूपों का उपयोग 1700 के दशक में किया गया था। जन्म के समय मानव लिंग अनुपात के विश्लेषण करने के लिये सबसे पहले प्रयोग का श्रेय जॉन अर्बुथनॉट (1710) को दिया जाता है, इसके बाद पियरे-साइमन लाप्लास (1770 के दशक) को ; देखें ।

आधुनिक उत्पत्ति और प्रारंभिक विवाद
आधुनिक महत्व परीक्षण सामान्यतः कार्ल पियर्सन (पी-वैल्यू, पियर्सन का ची-स्क्वेर्ड टेस्ट), विलियम सीली गॉसेट (छात्र का टी-वितरण), और रोनाल्ड फिशर (शून्य परिकल्पना, विचरण का विश्लेषण, सांख्यिकीय महत्व) का उत्पाद है।, जबकि परिकल्पना परीक्षण जॉर्ज नेमन और एगॉन पियर्सन (कार्ल के बेटे) द्वारा विकसित किया गया था। रोनाल्ड फिशर ने सांख्यिकी में अपने जीवन का प्रारंभ बायेसियन (ज़ाबेल 1992) के रूप में की थी, लेकिन फिशर जल्द ही इसमें सम्मिलित व्यक्तिपरकता (अर्थात् पूर्व संभावनाओं का निर्धारण करते समय उदासीनता के सिद्धांत का उपयोग) से मोहभंग हो गया, और आगमनात्मक निष्कर्ष के लिए एक अधिक उद्देश्यपूर्ण दृष्टिकोण प्रदान करने की मांग की।

फिशर एक कृषि सांख्यिकीविद् थे जिन्होंने गाऊसी वितरण मानते हुए कुछ मानकों से परिणाम निकालने के लिए कठोर प्रायोगिक डिजाइन और विधियों पर जोर दिया। नेमैन (जिन्होंने छोटे पियर्सन के साथ मिलकर काम किया) ने गणितीय कठोरता और कई मानकों और वितरण की एक विस्तृत श्रृंखला से अधिक परिणाम प्राप्त करने के विधियों पर जोर दिया। आधुनिक परिकल्पना परीक्षण फिशर बनाम नेमैन/पियर्सन सूत्रीकरण, विधियों और शब्दावली का एक असंगत संकर है जिसे 20वीं सदी के प्रारंभ में विकसित किया गया था।

फिशर ने महत्व परीक्षण को लोकप्रिय बनाया। उन्हें एक अशक्त-परिकल्पना (जनसंख्या आवृत्ति वितरण के अनुरूप) और एक मानक की आवश्यकता थी। उनकी (अब परिचित) गणना निर्धारित करती है कि अशक्त-परिकल्पना को अस्वीकार करना है या नहीं। महत्व परीक्षण ने वैकल्पिक परिकल्पना का उपयोग नहीं किया, इसलिए टाइप II त्रुटि की कोई अवधारणा नहीं थी।

पी-वैल्यू को एक अनौपचारिक, लेकिन वस्तुनिष्ठ सूचकांक के रूप में निर्माण किया गया था, जिसका उद्देश्य एक शोधकर्ता को यह निर्धारित करने में सहायता करना था (अन्य ज्ञान के आधार पर) कि क्या भविष्य के प्रयोगों को संशोधित करना है या शून्य परिकल्पना में किसी के प्रत्ययी अनुमान को स्थिर करना है।  परिकल्पना परीक्षण (और टाइप I/II त्रुटियां) नेमैन और पियर्सन द्वारा फिशर के पी-वैल्यू के एक अधिक उद्देश्यपूर्ण विकल्प के रूप में निर्माण किया गया था, जिसका अर्थ शोधकर्ता व्यवहार को निर्धारित करना भी था, लेकिन शोधकर्ता द्वारा किसी भी आगमनात्मक अनुमान की आवश्यकता के बिना।



नेमैन और पियर्सन ने एक अलग समस्या पर विचार किया (जिसे उन्होंने परिकल्पना परीक्षण कहा)। उन्होंने प्रारंभ में दो सरल परिकल्पनाओं (दोनों आवृत्ति वितरण के साथ) पर विचार किया। उन्होंने दो संभावनाओं की गणना की और सामान्यतः उच्च संभावना (मानक उत्पन्न करने की अधिक संभावना वाली परिकल्पना) से जुड़ी परिकल्पना का चयन किया। उनकी पद्धति ने हमेशा एक परिकल्पना का चयन किया। इसने दोनों प्रकार की त्रुटि संभावनाओं की गणना की भी अनुमति दी।

फिशर और नेमैन/पियरसन बुरी तरह से भिड़ गए। नेमैन/पियर्सन ने उनके सूत्रीकरण को महत्व परीक्षण का एक बेहतर सामान्यीकरण माना। (परिभाषित पेपर अमूर्त था। गणितज्ञों ने दशकों से सिद्धांत को सामान्यीकृत और परिष्कृत किया है।) फिशर ने सोचा कि यह वैज्ञानिक अनुसंधान के लिए लागू नहीं था क्योंकि अधिकांश, प्रयोग के समय, यह पता चलता है कि त्रुटि के अप्रत्याशित स्रोतों के कारण अशक्त परिकल्पना के बारे में प्रारंभिक धारणाएं संदिग्ध हैं। उनका मानना ​​था कि डेटा एकत्र करने से पहले उपस्थित मॉडल के आधार पर कठोर अस्वीकार/स्वीकार निर्णयों का उपयोग वैज्ञानिकों द्वारा सामना किए गए इस सामान्य परिदृश्य के साथ असंगत था और वैज्ञानिक अनुसंधान के लिए इस पद्धति को लागू करने के प्रयासों से बड़े पैमाने पर भ्रम उत्पन्न होगा।

फिशर और नेमन-पियर्सन के बीच विवाद को दार्शनिक आधार पर छेड़ा गया था, जिसे एक दार्शनिक ने सांख्यिकीय निष्कर्ष में मॉडल की उचित भूमिका पर विवाद के रूप में चित्रित किया था।

घटनाओं में हस्तक्षेप हुआ: नेमैन ने पश्चिमी गोलार्ध में एक स्थिति स्वीकार कर ली, पियर्सन के साथ अपनी साझेदारी को तोड़ दिया और विवादों (जिन्होंने उसी इमारत पर अधिकार कर लिया था) को ग्रहों के व्यास से अलग कर दिया। द्वितीय विश्व युद्ध ने बहस में एक मध्यांतर प्रदान किया। 1962 में फिशर की मृत्यु के साथ फिशर और नेमैन के बीच विवाद समाप्त हो गया (27 वर्षों के बाद अनसुलझा)। नेमन के कुछ बाद के प्रकाशनों ने पी-वैल्यू और महत्व के स्तर की सूचना दी।

परिकल्पना परीक्षण का आधुनिक संस्करण दो दृष्टिकोणों का एक संकर है जो 1940 के दशक में सांख्यिकीय पाठ्यपुस्तकों के लेखकों (जैसा कि फिशर द्वारा भविष्यवाणी की गई थी) के भ्रम के परिणामस्वरूप हुआ था।  (लेकिन पता लगाने का सिद्धांत, उदाहरण के लिए, अभी भी नेमन/पियर्सन सूत्रीकरण का उपयोग करता है।) महान वैचारिक अंतर और ऊपर उल्लिखित के अतिरिक्त कई चेतावनियों को उपेक्षित कर दिया गया। नेमैन और पियर्सन ने अधिक स्थिर शब्दावली, अधिक कठोर गणित और अधिक सुसंगत दर्शन प्रदान किया, लेकिन आज परिचयात्मक सांख्यिकी में पढ़ाए जाने वाले विषय में उनकी तुलना में फिशर की पद्धति के साथ अधिक समानताएं हैं। रेफरी नाम = गिजेरेंजर >

1940 के आसपास, सांख्यिकीय पाठ्य पुस्तकों के लेखकों ने नेमैन-पियर्सन महत्व स्तर के विरुद्ध परीक्षण करने के लिए परीक्षण सांख्यिकी (या डेटा) के स्थान पर पी-मान का उपयोग करके दो दृष्टिकोणों का संयोजन प्रारंभ किया।

शून्य परिकल्पना के प्रारंभिक विकल्प
पॉल मेहल ने तर्क दिया है कि अशक्त परिकल्पना के चुनाव का ज्ञानमीमांसीय महत्व काफी सीमा तक अस्वीकृत हो गया है। जब सिद्धांत द्वारा शून्य परिकल्पना की भविष्यवाणी की जाती है, तो एक अधिक यथार्थ प्रयोग अंतर्निहित सिद्धांत का अधिक गंभीर परीक्षण होगा। जब शून्य परिकल्पना में कोई अंतर या कोई प्रभाव नहीं होता है, तो एक अधिक यथार्थ प्रयोग उस सिद्धांत का कम गंभीर परीक्षण होता है जिसने प्रयोग करने के लिए प्रेरित किया। बाद के अभ्यास की उत्पत्ति की एक परीक्षा इसलिए उपयोगी हो सकती है:

1778: पियरे लाप्लास ने कई यूरोपीय शहरों में लड़कों और लड़कियों की जन्म दर की तुलना करता है। वह कहता है: यह निष्कर्ष निकालना स्वाभाविक है कि ये संभावनाएं लगभग एक ही अनुपात में हैं। इस प्रकार लाप्लास की शून्य परिकल्पना कि पारंपरिक ज्ञान के अनुसार लड़के और लड़कियों की जन्मदर समान होनी चाहिए।

1900: कार्ल पियर्सन ने यह निर्धारित करने के लिए ची स्क्वेर्ड परीक्षण विकसित किया कि क्या आवृत्ति वक्र का दिया गया रूप दी गई जनसंख्या से लिए गए मानकों का प्रभावी विधि से वर्णन करेगा। इस प्रकार अशक्त परिकल्पना यह है कि सिद्धांत द्वारा अनुमानित कुछ वितरण द्वारा जनसंख्या का वर्णन किया जाता है। वह एक उदाहरण के रूप में वाल्टर फ्रैंक राफेल वेल्डन में पांच और छः की संख्या का उपयोग करता है।

1904: कार्ल पियर्सन ने यह निर्धारित करने के लिए आकस्मिक तालिका की अवधारणा विकसित की कि क्या परिणाम किसी दिए गए श्रेणीबद्ध कारक की सांख्यिकीय स्वतंत्रता हैं। यहाँ शून्य परिकल्पना डिफ़ॉल्ट रूप से है कि दो चीजें असंबंधित हैं (जैसे निशान गठन और चेचक से मृत्यु दर)। इस स्थिति में अशक्त परिकल्पना की अब सिद्धांत या पारंपरिक ज्ञान द्वारा भविष्यवाणी नहीं की जाती है, अपितु इसके अतिरिक्त उदासीनता का सिद्धांत है जिसने फिशर और अन्य को "उलटा संभावनाओं" के उपयोग को अस्वीकृत करने का नेतृत्व किया।

दर्शन
परिकल्पना परीक्षण और दर्शन प्रतिच्छेद करते हैं। अनुमानित आँकड़े, जिसमें परिकल्पना परीक्षण सम्मिलित है, लागू संभाव्यता है। संभाव्यता और उसके अनुप्रयोग दोनों ही दर्शन के साथ गुंथे हुए हैं। दार्शनिक डेविड हुमे ने लिखा है, सभी ज्ञान संभाव्यता में पतित हो जाते हैं। संभाव्यता की प्रतिस्पर्धी व्यावहारिक परिभाषाएं दार्शनिक अंतर को दर्शाती हैं। परिकल्पना परीक्षण का सबसे आम अनुप्रयोग प्रायोगिक डेटा की वैज्ञानिक व्याख्या में है, जिसका स्वाभाविक रूप से विज्ञान के दर्शन द्वारा अध्ययन किया जाता है।

फिशर और नेमन ने प्रायिकता की व्यक्तिपरकता का विरोध किया। उनके विचारों ने वस्तुनिष्ठ परिभाषाओं में योगदान दिया। उनकी ऐतिहासिक असहमति का मूल दार्शनिक था।

परिकल्पना परीक्षण की कई दार्शनिक आलोचनाओं पर सांख्यिकीविदों द्वारा अन्य संदर्भों में चर्चा की जाती है, विशेष रूप से सहसंबंध का अर्थ कार्य-कारण और प्रयोगों का डिज़ाइन नहीं है।

परिकल्पना परीक्षण दार्शनिकों के लिए निरंतर रुचि का है।  

शिक्षा
विद्यालयों में सांख्यिकी को तेजी से पढ़ाया जा रहा है जिसमें परिकल्पना परीक्षण सिखाया जा रहा है। लोकप्रिय प्रेस (चिकित्सा अध्ययन के लिए राजनीतिक जनमत सर्वेक्षण) में रिपोर्ट किए गए कई निष्कर्ष आंकड़ों पर आधारित हैं। कुछ लेखकों ने कहा है कि इस तरह के सांख्यिकीय विश्लेषण से बड़े पैमाने पर डेटा से जुड़ी समस्याओं के बारे में स्पष्ट रूप से सोचने की अनुमति मिलती है, साथ ही उक्त डेटा से रुझानों और अनुमानों की प्रभावी रिपोर्टिंग होती है, लेकिन शब्दों और अवधारणाओं का सही उपयोग करने के लिए सावधान रहें कि व्यापक जनता के लिए लेखकों को क्षेत्र की ठोस समझ होनी चाहिए।   एक परिचयात्मक कॉलेज सांख्यिकी वर्ग परिकल्पना परीक्षण पर अधिक जोर देता है - संभवतः पाठ्यक्रम का आधा। साहित्य और देवत्व जैसे क्षेत्रों में अब सांख्यिकीय विश्लेषण पर आधारित निष्कर्ष सम्मिलित हैं (बाइबिल विश्लेषक देखें)। एक परिचयात्मक सांख्यिकी वर्ग एक कुकबुक प्रक्रिया के रूप में परिकल्पना परीक्षण सिखाता है। स्नातकोत्तर स्तर पर परिकल्पना परीक्षण भी पढ़ाया जाता है। सांख्यिकीविद् अच्छी सांख्यिकीय परीक्षण प्रक्रियाएँ बनाना सीखते हैं (जैसे z, छात्र का t, F और ची-स्क्वेर्ड)। सांख्यिकीय परिकल्पना परीक्षण सांख्यिकी के अन्दर एक परिपक्व क्षेत्र माना जाता है, लेकिन सीमित मात्रा में विकास जारी है।

एक अकादमिक अध्ययन में कहा गया है कि परिचयात्मक सांख्यिकी पढ़ाने की रसोई की पुस्तक पद्धति इतिहास, दर्शन या विवाद के लिए कोई समय नहीं छोड़ती है। परिकल्पना परीक्षण को प्राप्त एकीकृत विधि के रूप में पढ़ाया गया है। सर्वेक्षणों से पता चला है कि कक्षा के स्नातक दार्शनिक अन्देशा (सांख्यिकीय अनुमान के सभी पहलुओं पर) से भरे हुए थे जो प्रशिक्षकों के बीच बने रहे। जबकि समस्या को एक दशक से भी पहले संबोधित किया गया था, और शैक्षिक सुधार के लिए आह्वान जारी है, छात्र अभी भी सांख्यिकी कक्षाओं से स्नातक हैं, परिकल्पना परीक्षण के बारे में मूलभूत गलत धारणाएं रखते हैं। परिकल्पना परीक्षण के शिक्षण में सुधार के लिए छात्रों को प्रकाशित पत्रों में सांख्यिकीय त्रुटियों की खोज करने के लिए प्रोत्साहित करना, सांख्यिकी के इतिहास को पढ़ाना और सामान्यतः शुष्क विषय में विवाद पर जोर देना सम्मिलित है।

परीक्षण प्रक्रिया
सांख्यिकी साहित्य में, सांख्यिकीय परिकल्पना परीक्षण एक मौलिक भूमिका निभाता है। दो गणितीय समतुल्य प्रक्रियाएं हैं जिनका उपयोग किया जा सकता है।

तर्क की सामान्य पंक्ति इस प्रकार है:
 * 1) एक प्रारंभिक शोध परिकल्पना है जिसकी सत्यता अज्ञात है।
 * 2) पहला चरण प्रासंगिक अशक्त और वैकल्पिक परिकल्पनाओं को बताना है। यह महत्वपूर्ण है, क्योंकि परिकल्पना को गलत बताने से बाकी प्रक्रिया अव्यवस्थित हो जाएगी।
 * 3) दूसरा चरण परीक्षण करने में मानक के बारे में की जा रही सांख्यिकीय धारणाओं पर विचार करना है; उदाहरण के लिए, सांख्यिकीय स्वतंत्रता के बारे में धारणाएँ या प्रेक्षणों के वितरण के रूप के बारे में। यह उतना ही महत्वपूर्ण है क्योंकि अमान्य धारणाओं का अर्थ होगा कि परीक्षण के परिणाम अमान्य हैं।
 * 4) तय करें कि कौन सा परीक्षण उपयुक्त है, और प्रासंगिक परीक्षण आंकड़े T बताएं।
 * 5) मान्यताओं से अशक्त परिकल्पना के अनुसार परीक्षण आँकड़ों का वितरण प्राप्त करें। मानक स्थितियों में यह एक प्रसिद्ध परिणाम होगा। उदाहरण के लिए, परीक्षण आँकड़ा स्वतंत्रता की ज्ञात डिग्री के साथ एक छात्र के टी वितरण का अनुसरण कर सकता है, या ज्ञात माध्य और विचरण के साथ एक सामान्य वितरण। यदि शून्य परिकल्पना द्वारा परीक्षण सांख्यिकी का वितरण पूरी तरह से निश्चित है तो हम परिकल्पना को सरल कहते हैं, अन्यथा इसे समग्र कहा जाता है।
 * 6) एक महत्व स्तर (α) का चयन करें, एक प्रायिकता सीमा जिसके नीचे अशक्त परिकल्पना को अस्वीकार कर दिया जाएगा। सामान्य मूल्य 5% और 1% हैं।
 * 7) अशक्त परिकल्पना के अनुसार परीक्षण आंकड़ों का वितरण T के संभावित मानों को उन लोगों में विभाजित करता है जिनके लिए अशक्त परिकल्पना को अस्वीकार कर दिया गया है—तथाकथित महत्वपूर्ण क्षेत्र—और जिनके लिए यह नहीं है। महत्वपूर्ण क्षेत्र की संभावना α है। समग्र अशक्त परिकल्पना के स्थिति में, महत्वपूर्ण क्षेत्र की अधिकतम संभावना α है।
 * 8) प्रेक्षणों से परीक्षण आँकड़ा T का प्रेक्षित मान t obs परिकलित कीजिए।
 * 9) विकल्प के पक्ष में शून्य परिकल्पना को या तो अस्वीकार करने का निर्णय लें या इसे अस्वीकार न करें। निर्णय नियम शून्य परिकल्पना H0 को अस्वीकार करना है यदि प्रेक्षित मान t obs महत्वपूर्ण क्षेत्र में है, और अन्यथा अशक्त परिकल्पना को अस्वीकार नहीं करना है।

इस प्रक्रिया का एक सामान्य वैकल्पिक सूत्रीकरण इस प्रकार है:
 * 1) प्रेक्षणों से परीक्षण आँकड़ा T का प्रेक्षित मान t obs परिकलित कीजिए।
 * 2) पी-वैल्यू की गणना करें। यह संभावना है, अशक्त परिकल्पना के अनुसार, कम से कम अतिशय के रूप में एक परीक्षण आंकड़े का मानक लेने की जो देखा गया था (उस घटना की अधिकतम संभावना, यदि परिकल्पना समग्र है)।
 * 3) वैकल्पिक परिकल्पना के पक्ष में, शून्य परिकल्पना को अस्वीकार करें, यदि और केवल यदि पी-मान महत्व स्तर (चयनित संभावना) सीमा (α) से कम (या बराबर) है, उदाहरण के लिए 0.05 या 0.01।

पूर्व की प्रक्रिया अतीत में लाभदायक थी जब सामान्य संभाव्यता थ्रेसहोल्ड पर परीक्षण आंकड़ों की केवल तालिकाएं उपलब्ध थीं। इसने संभाव्यता की गणना के बिना निर्णय लेने की अनुमति दी। यह क्लासवर्क और परिचालन उपयोग के लिए पर्याप्त था, लेकिन परिणामों की रिपोर्टिंग के लिए इसमें कमी थी। बाद की प्रक्रिया व्यापक तालिकाओं या कम्प्यूटेशनल समर्थन पर निर्भर करती है जो हमेशा उपलब्ध नहीं होती है। संभाव्यता की स्पष्ट गणना रिपोर्टिंग के लिए उपयोगी है। गणना अब उपयुक्त सॉफ्टवेयर के साथ तुच्छ रूप से की जाती है।

रेडियोधर्मी सूटकेस उदाहरण (नीचे) पर लागू दो प्रक्रियाओं में अंतर: पूर्व की रिपोर्ट पर्याप्त है, बाद वाली डेटा का अधिक विस्तृत विवरण देती है और सूटकेस की जाँच क्यों की जा रही है।
 * गीजर-काउंटर रीडिंग 10 है। सीमा 9 है। सूटकेस की जाँच करें।
 * गीजर-काउंटर रीडिंग अधिक है; 97% सुरक्षित सूटकेस में रीडिंग कम होती है। सीमा 95% है। सूटकेस की जाँच करें।

अशक्त परिकल्पना को अस्वीकार न करने का अर्थ यह नहीं है कि अशक्त परिकल्पना को स्वीकार कर लिया गया है (व्याख्या अनुभाग देखें)।

यहाँ वर्णित प्रक्रियाएँ संगणना के लिए पूरी तरह से पर्याप्त हैं। वे प्रयोगों के विचारों के डिजाइन की गंभीरता से उपेक्षा करते हैं।

यह विशेष रूप से महत्वपूर्ण है कि प्रयोग करने से पहले उचित मानक आकार का अनुमान लगाया जाए।

महत्व का वाक्यांश परीक्षण सांख्यिकीविद् रोनाल्ड फिशर द्वारा गढ़ा गया था।

व्याख्या
पी-मान संभावना है कि एक दिया गया परिणाम (या अधिक महत्वपूर्ण परिणाम) शून्य परिकल्पना के अनुसार होगा। 0.05 के महत्व स्तर पर, एक निष्पक्ष सिक्के से प्रत्येक 20 परीक्षणों में से लगभग 1 में शून्य परिकल्पना (जो कि यह उचित है) को अस्वीकार (गलत प्रणाली से) करने की आशा की जाएगी। पी-मान शून्य परिकल्पना या इसके विपरीत के सही होने की संभावना प्रदान नहीं करता है (भ्रम का एक सामान्य स्रोत)।

यदि पी-मान चुने गए महत्व सीमा से कम है (समतुल्य रूप से, यदि मनाया गया परीक्षण आँकड़ा में है महत्वपूर्ण क्षेत्र), तो हम कहते हैं कि महत्व के चुने हुए स्तर पर अशक्त परिकल्पना को अस्वीकृत कर दिया गया है। यदि पी-मान चुने गए महत्व की सीमा से कम नहीं है (समतुल्य रूप से, यदि मनाया गया परीक्षण आँकड़ा महत्वपूर्ण क्षेत्र से बाहर है), तो अशक्त परिकल्पना को अस्वीकार नहीं किया जाता है।

लेडी चखने वाली चाय के उदाहरण (नीचे) में, फिशर को इस निष्कर्ष को सही बताने के लिए चाय के सभी कपों को ठीक से वर्गीकृत करने के लिए लेडी की आवश्यकता थी कि परिणाम संयोग से परिणाम की संभावना नहीं थी। उनके परीक्षण से पता चला कि यदि महिला प्रभावी रूप से यादृच्छिक (शून्य परिकल्पना) पर अनुमान लगा रही थी, तो 1.4% संभावना थी कि देखे गए परिणाम (पूरी तरह से आदेशित चाय) होंगे।

इस परिकल्पना को अस्वीकृत करते हुए कि एक भालू से एक बड़ा पंजा प्रिंट उत्पन्न हुआ है, बिगफुट के अस्तित्व को तुरंत सिद्ध नहीं करता है। परिकल्पना परीक्षण अस्वीकृति पर जोर देता है, जो स्वीकृति के अतिरिक्त संभाव्यता पर आधारित है।

अशक्त परिकल्पना को अस्वीकार करने की संभावना पांच कारकों का एक कार्य है: चाहे परीक्षण एक- या दो-पूंछ वाला हो, महत्व का स्तर, मानक विचलन, अशक्त परिकल्पना से विचलन की मात्रा और टिप्पणियों की संख्या।

उपयोग और महत्व
सांख्यिकी डेटा के अधिकांश संग्रहों का विश्लेषण करने में सहायक होती है। यह परिकल्पना परीक्षण के लिए भी उतना ही सच है जो किसी वैज्ञानिक सिद्धांत के उपस्थित न होने पर भी निष्कर्षों को सही ठहरा सकता है। लेडी चखने वाली चाय के उदाहरण में, यह स्पष्ट था कि (दूध को चाय में डालना) और (चाय को दूध में डालना) के बीच कोई अंतर नहीं था। डेटा ने स्पष्ट का खंडन किया।

परिकल्पना परीक्षण के वास्तविक विश्व अनुप्रयोगों में सम्मिलित हैं:
 * महिलाओं की तुलना में अधिक पुरुष बुरे सपने से पीड़ित हैं या नहीं इसका परीक्षण करना
 * दस्तावेजों के ग्रन्थकारिता की स्थापना
 * व्यवहार पर पूर्णिमा के प्रभाव का मूल्यांकन
 * उस सीमा का निर्धारण करना जिस पर एक चमगादड़ प्रतिध्वनि द्वारा एक कीट का पता लगा सकता है
 * यह तय करना कि अस्पताल में कालीन बिछाने से अधिक संक्रमण होता है या नहीं
 * धूम्रपान रोकने के लिए सर्वोत्तम साधनों का चयन करना
 * जाँच करना कि बम्पर स्टिकर्स कार मालिक के व्यवहार को दर्शाते हैं या नहीं
 * लिखावट विश्लेषकों के दावों का परीक्षण

सांख्यिकीय परिकल्पना परीक्षण संपूर्ण आँकड़ों और सांख्यिकीय अनुमान में एक महत्वपूर्ण भूमिका निभाता है। उदाहरण के लिए, लेहमैन (1992) नेमैन और पियर्सन (1933) द्वारा मौलिक पेपर की समीक्षा में कहते हैं: फिर भी, उनकी कमियों के बाद भी, 1933 के पेपर में तैयार किए गए नए प्रतिमान, और इसके संरचना के अन्दर किए गए कई विकास कार्य करना जारी रखते हैं। सांख्यिकी के सिद्धांत और व्यवहार दोनों में एक केंद्रीय भूमिका है और निकट भविष्य में ऐसा करने की आशा की जा सकती है।

महत्व परीक्षण कुछ प्रायोगिक सामाजिक विज्ञानों में पसंदीदा सांख्यिकीय उपकरण रहा है (1990 के दशक की प्रारंभ में जर्नल ऑफ एप्लाइड साइकोलॉजी में 90% से अधिक लेख)। अन्य क्षेत्रों ने मापदंडों (जैसे प्रभाव आकार) के अनुमान का समर्थन किया है। वैज्ञानिक पद्धति के मूल में अनुमानित मूल्य और प्रायोगिक परिणाम की पारंपरिक तुलना के विकल्प के रूप में महत्व परीक्षण का उपयोग किया जाता है। जब सिद्धांत केवल एक संबंध के संकेत की भविष्यवाणी करने में सक्षम होता है, तो एक दिशात्मक (एकतरफा) परिकल्पना परीक्षण को कॉन्फ़िगर किया जा सकता है जिससे केवल सांख्यिकीय रूप से महत्वपूर्ण परिणाम सिद्धांत का समर्थन कर सके। सिद्धांत मूल्यांकन का यह रूप परिकल्पना परीक्षण का सबसे अधिक आलोचनात्मक अनुप्रयोग है।

सावधानियाँ
यदि सरकार को दवाओं पर चेतावनी लेबल लगाने के लिए सांख्यिकीय प्रक्रियाओं की आवश्यकता होती है, तो अधिकांश अनुमान विधियों में वास्तव में लंबे लेबल होंगे। यह सावधानी परिकल्पना परीक्षणों और उनके विकल्पों पर लागू होती है।

सफल परिकल्पना परीक्षण प्रायिकता और प्रकार-I त्रुटि दर से जुड़ा है। निष्कर्ष गलत हो सकता है।

परीक्षण का निष्कर्ष केवल उतना ही ठोस होता है जितना कि वह मानक जिस पर वह आधारित होता है। प्रयोग का डिजाइन महत्वपूर्ण है। कई अप्रत्याशित प्रभाव देखे गए हैं जिनमें सम्मिलित हैं: भ्रामक डेटा का एक सांख्यिकीय विश्लेषण भ्रामक निष्कर्ष उत्पन्न करता है। डेटा गुणवत्ता का प्रकरण अधिक सूक्ष्म हो सकता है। उदाहरण के लिए पूर्वानुमान में, पूर्वानुमान यथार्ता के माप पर कोई सहमति नहीं है। सर्वसम्मत माप के अभाव में, माप पर आधारित कोई भी निर्णय बिना विवाद के नहीं होगा।
 * चतुर हंस प्रभाव। एक घोड़ा साधारण अंकगणित करने में सक्षम प्रतीत होता था।
 * नागफनी प्रभाव। औद्योगिक श्रमिक बेहतर रोशनी में अधिक उत्पादक थे, और दयनीय में सबसे अधिक उत्पादक।
 * प्लेसिबो प्रभाव। चिकित्सकीय रूप से सक्रिय अवयवों वाली गोलियां उल्लेखनीय रूप से प्रभावी थीं।

प्रकाशन पूर्वाग्रह: सांख्यिकीय रूप से निरर्थक परिणामों के प्रकाशित होने की संभावना कम हो सकती है, जो साहित्य को पूर्वाग्रहित कर सकते हैं।

एकाधिक परीक्षण: जब समायोजन के बिना एक साथ कई ट्रू शून्य परिकल्पना परीक्षण किए जाते हैं, तो टाइप I त्रुटि की संभावना नाममात्र अल्फा स्तर से अधिक होती है।

एक परिकल्पना परीक्षण के परिणामों के आधार पर महत्वपूर्ण निर्णय लेने वाले एकल निष्कर्ष के अतिरिक्त विवरण को देखने के लिए विवेकपूर्ण हैं। भौतिक विज्ञानों में अधिकांश परिणाम केवल तभी पूर्ण रूप से स्वीकार किए जाते हैं जब स्वतंत्र रूप से पुष्टि की जाती है। आंकड़ों के संबंध में सामान्य सलाह है, आंकड़े कभी झूठ नहीं बोलते, लेकिन झूठे आंकड़े (अस्पष्ट)।

शर्तों की परिभाषा
निम्नलिखित परिभाषाएँ मुख्य रूप से लेहमन और रोमानो की पुस्तक में व्याख्या पर आधारित हैं:
 * सांख्यिकीय परिकल्पना: जनसंख्या का वर्णन करने वाले मापदंडों के बारे में एक बयान (मानक नहीं)।
 * परीक्षण आँकड़ा: किसी अज्ञात पैरामीटर के बिना मानक से गणना की गई मान, अधिकांश तुलना उद्देश्यों के लिए मानक को सारांशित करने के लिए।
 * कोई भी परिकल्पना जो जनसंख्या वितरण को पूरी तरह से निर्दिष्ट नहीं करती है
 * समग्र परिकल्पना: कोई भी परिकल्पना जो जनसंख्या वितरण को पूरी तरह से निर्दिष्ट नहीं करती है।
 * शून्य परिकल्पना (H0)
 * सकारात्मक डेटा: डेटा जो अन्वेषक को शून्य परिकल्पना को अस्वीकार करने में सक्षम बनाता है।
 * वैकल्पिक परिकल्पना (H1)
 * अस्वीकृति का क्षेत्र/महत्वपूर्ण क्षेत्र: परीक्षण सांख्यिकी के मूल्यों का समूह जिसके लिए शून्य परिकल्पना को अस्वीकार किया जाता है।
 * महत्वपूर्ण मूल्य सांख्यिकी
 * सांख्यिकीय शक्ति (1 − 'β'')
 * आकार (सांख्यिकी): सरल परिकल्पनाओं के लिए, यह शून्य परिकल्पना को अस्वीकार करने वाले गलत प्रणाली से परीक्षण की संभावना है। झूठी सकारात्मक दर। समग्र परिकल्पनाओं के लिए यह शून्य परिकल्पना द्वारा कवर किए गए सभी स्थितियों पर शून्य परिकल्पना को अस्वीकार करने की संभावना का सर्वोच्च है। झूठी सकारात्मक दर के पूरक को जैव सांख्यिकी में विशिष्टता कहा जाता है। (यह एक विशिष्ट परीक्षण है। क्योंकि परिणाम सकारात्मक है, हम विश्वास के साथ कह सकते हैं कि रोगी की स्थिति है।) संपूर्ण परिभाषाओं के लिए संवेदनशीलता और विशिष्टता और टाइप I और टाइप II त्रुटियां देखें।
 * एक परीक्षण का महत्व स्तर (α)
 * पी-वैल्यू
 * सांख्यिकीय महत्व परीक्षण: सांख्यिकीय परिकल्पना परीक्षण का एक पूर्ववर्ती (मूल अनुभाग देखें)। एक प्रयोगात्मक परिणाम को सांख्यिकीय रूप से महत्वपूर्ण कहा गया था यदि एक मानक (शून्य) परिकल्पना के साथ पर्याप्त रूप से असंगत था। यह विभिन्न प्रकार से सामान्य ज्ञान माना जाता था, सार्थक प्रायोगिक परिणामों की पहचान करने के लिए एक व्यावहारिक अनुमान, सांख्यिकीय साक्ष्य की सीमा स्थापित करने वाला एक सम्मेलन या डेटा से निष्कर्ष निकालने के लिए एक विधि। सांख्यिकीय परिकल्पना परीक्षण ने वैकल्पिक परिकल्पना को स्पष्ट करके अवधारणा में गणितीय कठोरता और दार्शनिक स्थिरता को जोड़ा। यह शब्द आधुनिक संस्करण के लिए शिथिल रूप से उपयोग किया जाता है जो अब सांख्यिकीय परिकल्पना परीक्षण का भाग है।
 * रूढ़िवादी परीक्षण: एक परीक्षण रूढ़िवादी है, जब किसी दिए गए नाममात्र महत्व के स्तर के लिए निर्मित किया जाता है, तो 'गलत प्रणाली से' शून्य परिकल्पना को अस्वीकार करने की वास्तविक संभावना कभी भी नाममात्र स्तर से अधिक नहीं होती है।
 * यथार्थ परीक्षा

एक सांख्यिकीय परिकल्पना परीक्षण एक परीक्षण आंकड़े (उदाहरण के लिए z या t) की तुलना एक दहलीज से करता है। परीक्षण आँकड़ा (नीचे दी गई तालिका में पाया गया सूत्र) इष्टतमता पर आधारित है। टाइप I त्रुटि दर के एक निश्चित स्तर के लिए, इन आँकड़ों का उपयोग टाइप II त्रुटि दर को कम करता है (अधिकतम शक्ति के बराबर)। निम्नलिखित शर्तें ऐसी इष्टतमता के संदर्भ में परीक्षणों का वर्णन करती हैं:


 * सबसे शक्तिशाली परीक्षण: किसी दिए गए आकार या महत्त्व स्तर के लिए, परीक्षण किए जा रहे पैरामीटर (एस) के दिए गए मान के लिए सबसे बड़ी शक्ति (अस्वीकृति की संभावना) के साथ परीक्षण, वैकल्पिक परिकल्पना में निहित.
 * समान रूप से सबसे शक्तिशाली परीक्षण (यूएमपी)

मानव लिंगानुपात
सांख्यिकीय परिकल्पना परीक्षण का सबसे पहला उपयोग सामान्यतः इस सवाल का श्रेय दिया जाता है कि क्या पुरुष और महिला जन्म समान रूप से संभव हैं (शून्य परिकल्पना), जिसे 1700 के दशक में जॉन अर्बुथनॉट (1710) द्वारा संबोधित किया गया था। और बाद में पियरे-साइमन लाप्लास (1770 के दशक) द्वारा।

आर्बुथनॉट ने 1629 से 1710 तक 82 वर्षों में से प्रत्येक के लिए लंदन में जन्म रिकॉर्ड की जांच की, और साइन परीक्षण, एक साधारण गैर-पैरामीट्रिक परीक्षण लागू किया। प्रत्येक वर्ष, लंदन में जन्म लेने वाले पुरुषों की संख्या महिलाओं की संख्या से अधिक हो गई। अधिक पुरुष या अधिक महिला जन्मों को समान रूप से मानते हुए, देखे गए परिणाम की संभावना 0.582 है, या 4,836,000,000,000,000,000,000,000 में लगभग 1; आधुनिक शब्दों में, यह पी-वैल्यू है। अर्बुथनॉट ने निष्कर्ष निकाला कि यह संयोग के कारण बहुत छोटा है और इसके अतिरिक्त ईश्वरीय प्रोविडेंस के कारण होना चाहिए: जहां से यह अनुसरण करता है, कि यह कला है, मौका नहीं, जो नियंत्रित करती है। आधुनिक शब्दों में, उन्होंने P = 1/282 महत्व स्तर पर समान रूप से संभावित पुरुष और महिला जन्मों की शून्य परिकल्पना को खारिज कर दिया।

लाप्लास ने लगभग आधा मिलियन जन्मों के आँकड़ों पर विचार किया। आंकड़ों में लड़कियों की तुलना में लड़कों की अधिकता दिखाई गई। उन्होंने एक पी-वैल्यू की गणना करके निष्कर्ष निकाला कि अतिरिक्त एक वास्तविक, लेकिन अस्पष्टीकृत प्रभाव था।

चाय चखती महिला
परिकल्पना परीक्षण के एक प्रसिद्ध उदाहरण में, जिसे लेडी चखने वाली चाय के रूप में जाना जाता है, डॉ. म्यूरियल ब्रिस्टल, फिशर के एक सहयोगी ने यह बताने में सक्षम होने का प्रमाणित किया कि चाय या दूध पहले एक कप में डाला गया था या नहीं। फिशर ने उसे यादृच्छिक क्रम में आठ कप, प्रत्येक किस्म के चार देने का प्रस्ताव दिया। तब कोई पूछ सकता है कि उसके द्वारा सही संख्या प्राप्त करने की संभावना क्या थी, लेकिन केवल संयोग से। शून्य परिकल्पना यह थी कि महिला के पास ऐसी कोई क्षमता नहीं थी। परीक्षण आँकड़ा 4 कपों के चयन में सफलताओं की संख्या की एक साधारण गणना थी। पारंपरिक संभाव्यता मानदंड (<5%) के आधार पर महत्वपूर्ण क्षेत्र 4 में से 4 सफलताओं का एकल स्थिति था। 4 सफलताओं का पैटर्न 70 संभावित संयोजनों (p≈ 1.4%) में से 1 के अनुरूप है। फिशर ने जोर देकर कहा कि कोई वैकल्पिक परिकल्पना (कभी) की आवश्यकता नहीं थी। महिला ने हर कप की सही पहचान की, जिसे सांख्यिकीय रूप से महत्वपूर्ण परिणाम माना जाएगा।

न्यायालय परीक्षण
एक सांख्यिकीय परीक्षण प्रक्रिया एक आपराधिक परीक्षण (कानून) के बराबर है; एक प्रतिवादी को तब तक दोषी नहीं माना जाता है जब तक उसका अपराध सिद्ध नहीं होता है। अभियोजक प्रतिवादी के अपराध को सिद्ध करने की कोशिश करता है। अभियोजन पक्ष के लिए पर्याप्त साक्ष्य होने पर ही प्रतिवादी को अपराधी ठहराया जाता है।

प्रक्रिया के प्रारंभ में, दो परिकल्पनाएँ हैं $$H_0$$: प्रतिवादी दोषी नहीं है, और $$H_1$$: प्रतिवादी दोषी है। पहले वाला, $$H_0$$, शून्य परिकल्पना कहलाती है। दूसरा एक, $$H_1$$, वैकल्पिक परिकल्पना कहलाती है। यह वैकल्पिक परिकल्पना है जिसका समर्थन करने की आशा है।

निर्दोषता की परिकल्पना को केवल तभी अस्वीकृत कर दिया जाता है जब त्रुटि की संभावना बहुत कम होती है, क्योंकि कोई निर्दोष प्रतिवादी को दोषी नहीं ठहराना चाहता। इस तरह की त्रुटि को पहली तरह की त्रुटि कहा जाता है (अर्थात्, एक निर्दोष व्यक्ति की सजा), और इस त्रुटि की घटना को दुर्लभ होने के लिए नियंत्रित किया जाता है। इस असममित व्यवहार के परिणामस्वरूप, दूसरी तरह की त्रुटि (अपराध करने वाले व्यक्ति को बरी करना) अधिक सामान्य है।

एक आपराधिक वाद को दो निर्णय प्रक्रियाओं में से एक या दोनों के रूप में माना जा सकता है: दोषी बनाम दोषी नहीं या साक्ष्य बनाम एक सीमा (उचित संदेह से परे)। एक दृष्टिकोण में, प्रतिवादी को आंका जाता है; दूसरे दृष्टिकोण में अभियोजन पक्ष (जो प्रमाण का भार वहन करता है) के प्रदर्शन को आंका जाता है। एक परिकल्पना परीक्षण को या तो परिकल्पना के निर्णय के रूप में या साक्ष्य के निर्णय के रूप में माना जा सकता है।

दार्शनिक की फलियाँ
परिकल्पना परीक्षण को औपचारिक रूप देने और लोकप्रिय बनाने से पहले पीढ़ियों से चली आ रही वैज्ञानिक विधियों का वर्णन करने वाले एक दार्शनिक द्वारा निम्नलिखित उदाहरण का निर्माण किया गया था।

इस मुठ्ठी की कुछ फलियाँ सफेद होती हैं। इस बैग में अधिकांशतः बीन्स सफेद रंग की होती हैं। इसलिए: संभवतः, ये बीन्स दूसरे बैग से लिए गए थे। यह एक काल्पनिक अनुमान है।

बैग में बीन्स जनसंख्या हैं। मुट्ठी भर मानक हैं। शून्य परिकल्पना यह है कि मानक जनसंख्या से उत्पन्न हुआ है। अशक्त-परिकल्पना को अस्वीकृत करने की जाँच उपस्थिति में स्पष्ट अंतर (माध्य में एक अनौपचारिक अंतर) है। रोचक परिणाम यह है कि वास्तविक जनसंख्या और वास्तविक मानक पर विचार करने से एक काल्पनिक बैग का उत्पादन होता है। दार्शनिक संभाव्यता के अतिरिक्त तर्क पर विचार कर रहा था। एक वास्तविक सांख्यिकीय परिकल्पना परीक्षण होने के लिए, इस उदाहरण के लिए संभाव्यता गणना की औपचारिकताओं और उस संभावना की तुलना एक मानक से करने की आवश्यकता होती है।

उदाहरण का एक सरल सामान्यीकरण बीन्स के एक मिश्रित बैग और एक मुट्ठी भर में बहुत कम या बहुत अधिक सफेद बीन्स पर विचार करता है। सामान्यीकरण दोनों चरम सीमाओं पर विचार करता है। औपचारिक उत्तर पर पहुंचने के लिए अधिक गणनाओं और अधिक तुलनाओं की आवश्यकता होती है, लेकिन मूल दर्शन अपरिवर्तित रहता है; यदि मुट्ठी भर की संरचना बैग की संरचना से बहुत भिन्न है, तो मानक संभवतः दूसरे बैग से उत्पन्न हुआ है। मूल उदाहरण को एक तरफा या एक तरफा परीक्षण कहा जाता है जबकि सामान्यीकरण को दो तरफा या दो तरफा परीक्षण कहा जाता है।

वर्णन इस अनुमान पर भी निर्भर करता है कि मानक यादृच्छिक था। यदि कोई सफेद बीन्स खोजने के लिए बैग के माध्यम से उठा रहा था, तो यह समझाएगा कि मुट्ठी भर लोगों के पास इतनी सारी सफेद बीन्स क्यों थीं, और यह भी समझाएगा कि बैग में सफेद बीन्स की संख्या क्यों कम हो गई थी (चूंकि बैग संभवतः हाथ से बहुत बड़ा माना जाता है)।

भेदक ताश का खेल
एक व्यक्ति (विषय) को पेशनीगोई के लिए परीक्षण किया जाता है। उन्हें 25 बार अव्यवस्थित रूप से चुने गए प्लेइंग कार्ड का पिछला चेहरा दिखाया जाता है और पूछा जाता है कि यह चार सूटों (कार्ड) में से किसका है। हिट की संख्या, या सही उत्तर, को X कहा जाता है।

जैसा कि हम उनकी दूरदर्शिता का प्रमाण खोजने की प्रयास करते हैं, अभी के लिए शून्य परिकल्पना यह है कि व्यक्ति दूरदर्शी नहीं है। विकल्प है: व्यक्ति (अधिक या कम) भेदक है।

यदि अशक्त परिकल्पना मान्य है, तो परीक्षण करने वाला व्यक्ति केवल अनुमान लगा सकता है। प्रत्येक कार्ड के लिए, किसी एक सूट के प्रदर्शित होने की प्रायिकता (सापेक्ष आवृत्ति) 1/4 है। यदि विकल्प मान्य है, तो परीक्षण विषय 1/4 से अधिक संभावना के साथ सूट की सही भविष्यवाणी करेगा। हम सही रूप से अनुमान लगाने की संभावना को p कहेंगे। परिकल्पनाएँ, तब हैं: तथा
 * शून्य परिकल्पना $$\text{:} \qquad H_0: p = \tfrac 14$$ (सिर्फ अनुमान)
 * वैकल्पिक परिकल्पना $$\text{:} H_1: p > \tfrac 14$$ (सच्चा दूरदर्शीता)।

जब परीक्षण विषय सभी 25 कार्डों की सही भविष्यवाणी करता है, तो हम उन्हें अतीन्द्रियदर्शी मानेंगे और शून्य परिकल्पना को अस्वीकार कर देंगे। इस प्रकार 24 या 23 हिट्स के साथ भी। दूसरी ओर केवल 5 या 6 हिट के साथ, उन्हें ऐसा मानने का कोई कारण नहीं है। लेकिन 12 हिट या 17 हिट का क्या? हिट्स की महत्वपूर्ण संख्या, c क्या है, जिस बिंदु पर हम विषय को भेदक मानते हैं? हम महत्वपूर्ण मूल्य c कैसे निर्धारित करते हैं? विकल्प c = 25 के साथ (अर्थात हम केवल दूरदर्शिता को स्वीकार करते हैं जब सभी कार्डों की सही भविष्यवाणी की जाती है) हम c = 10 की तुलना में अधिक महत्वपूर्ण हैं। पहले की स्थिति में, लगभग किसी भी परीक्षार्थी को भेदक के रूप में मान्यता नहीं दी जाएगी, दूसरी स्थिति में, एक निश्चित संख्या परीक्षा पास करेगी। व्यवहार में, कोई यह तय करता है कि कोई कितना महत्वपूर्ण होगा। अर्थात्, कोई यह तय करता है कि वह पहली तरह की त्रुटि को कितनी बार स्वीकार करता है - एक झूठी सकारात्मक, या टाइप I त्रुटि। c = 25 के साथ ऐसी त्रुटि की संभावना है:


 * $$P(\text{reject }H_0 \mid H_0 \text{ is valid}) = P(X = 25\mid p=\tfrac 14)=\left(\tfrac 14\right)^{25}\approx10^{-15},$$

और इसलिए, बहुत छोटा। झूठे सकारात्मक की संभावना यादृच्छिक रूप से सभी 25 बार सही रूप से अनुमान लगाने की संभावना है।

कम महत्वपूर्ण होने पर, c=10 के साथ, देता है:


 * $$P(\text{reject }H_0 \mid H_0 \text{ is valid}) = P(X \ge 10 \mid p=\tfrac 14) = \sum_{k=10}^{25}P(X=k\mid p=\tfrac 14) = \sum_{k=10}^{25} \binom{25}{k}( 1- \tfrac 14)^{25-k} (\tfrac 14)^k \approx 0{.}0713.$$

इस प्रकार, c = 10 झूठी सकारात्मकता की अधिक संभावना उत्पन्न करता है।

परीक्षण वास्तविक में किए जाने से पहले, टाइप I त्रुटि (α) की अधिकतम स्वीकार्य संभावना निर्धारित की जाती है। सामान्यतः, 1% से 5% की सीमा में मान चुने जाते हैं। (यदि अधिकतम स्वीकार्य त्रुटि दर शून्य है, तो अनंत संख्या में सही अनुमानों की आवश्यकता होती है।) इस प्रकार 1 त्रुटि दर के आधार पर, महत्वपूर्ण मान c की गणना की जाती है। उदाहरण के लिए, यदि हम 1% की त्रुटि दर का चयन करते हैं, तो c की गणना इस प्रकार की जाती है:


 * $$P(\text{reject }H_0 \mid H_0 \text{ is valid}) = P(X \ge c\mid p=\tfrac 14) \le 0{.}01.$$

सभी संख्याओं c से, इस गुण के साथ, हम टाइप II त्रुटि की प्रायिकता को कम करने के लिए, एक मिथ्या ऋणात्मक को सबसे छोटा चुनते हैं। उपरोक्त उदाहरण के लिए, हम: $$c=13$$ चुनते हैं.

रेडियोएक्टिव सूटकेस
उदाहरण के लिये, यह निर्धारित करने पर विचार करें कि सूटकेस में कुछ रेडियोधर्मी सामग्री है या नहीं। एक गीजर काउंटर के नीचे रखा जाता है, यह प्रति मिनट 10 काउंट का उत्पादन करता है। शून्य परिकल्पना यह है कि सूटकेस में कोई रेडियोधर्मी सामग्री नहीं है और सभी मापी गई गणना नजदीक की हवा और हानिरहित वस्तुओं की विशिष्ट परिवेशी रेडियोधर्मिता के कारण होती है। इसके बाद हम यह गणना कर सकते हैं कि यह कितनी संभावना है कि हम प्रति मिनट 10 गणनाएँ देखेंगे यदि अशक्त परिकल्पना सत्य थी। यदि अशक्त परिकल्पना प्रति मिनट औसतन 9 गणनाओं की भविष्यवाणी (मानती है) करती है, तो पॉसॉन वितरण के अनुसार रेडियोधर्मी क्षय के लिए विशिष्ट रूप से 10 या अधिक गणनाओं को अंकित करने की लगभग 41% संभावना है। इस प्रकार हम कह सकते हैं कि सूटकेस अशक्त परिकल्पना के अनुकूल है (यह गारंटी नहीं देता है कि कोई रेडियोधर्मी सामग्री नहीं है, बस हमारे पास सुझाव देने के लिए पर्याप्त प्रमाण नहीं हैं)। दूसरी ओर, यदि अशक्त परिकल्पना 3 गणना प्रति मिनट की भविष्यवाणी करती है (जिसके लिए पोइसन वितरण 10 या अधिक गिनती रिकॉर्ड करने की केवल 0.1% संभावना की भविष्यवाणी करता है) तो सूटकेस अशक्त परिकल्पना के साथ संगत नहीं है, और संभवतः अन्य कारक हैं जो माप उत्पन्न करने के लिए उत्तरदायी हैं।

परीक्षण सामान्यतः रेडियोधर्मी सामग्री की उपस्थिति का प्रमाणित नहीं करता है। एक सफल परीक्षण में प्रमाणित किया गया है कि कोई रेडियोधर्मी सामग्री उपस्थित नहीं होने के प्रमाण को पढ़ने (और इसलिए ...) की संभावना नहीं है। विधि का दोहरा नकारात्मक (शून्य परिकल्पना का खंडन करना) भ्रमित करने वाला है, लेकिन खंडन करने के लिए प्रति-उदाहरण का उपयोग करना मानक गणितीय अभ्यास है। विधि का आकर्षण इसकी व्यावहारिकता है। हम जानते हैं (अनुभव से) गणना की अपेक्षित सीमा केवल परिवेशी रेडियोधर्मिता उपस्थित है, इसलिए हम कह सकते हैं कि एक माप असामान्य रूप से बड़ा है। सांख्यिकी केवल विशेषणों के अतिरिक्त संख्याओं का उपयोग करके सहज ज्ञान को औपचारिक रूप देती है। हम संभवतः रेडियोधर्मी सूटकेस की विशेषताओं को नहीं जानते हैं; हम बस मान लेते हैं कि वे बड़ी रीडिंग देते हैं।

अंतर्ज्ञान को थोड़ा औपचारिक बनाने के लिए: रेडियोधर्मिता का संदेह होता है यदि सूटकेस के साथ गीजर-गिनती एकल परिवेश विकिरण के साथ बनाई गई गीजर-गिनती के सबसे बड़े (5% या 1%) के बीच है या उससे अधिक है। यह गिनती के वितरण के बारे में कोई धारणा नहीं बनाता है। दुर्लभ घटनाओं के लिए अच्छा संभाव्यता अनुमान प्राप्त करने के लिए कई परिवेशी विकिरण प्रेक्षणों की आवश्यकता होती है।

यहाँ वर्णित परीक्षण अधिक पूरी तरह से शून्य-परिकल्पना सांख्यिकीय महत्व परीक्षण है। अशक्त परिकल्पना किसी प्रमाण को देखने से पहले, डिफ़ॉल्ट रूप से हम क्या विश्वास करेंगे इसका प्रतिनिधित्व करते हैं। सांख्यिकीय महत्व परीक्षण की एक संभावित खोज है, जब घोषित मानक (सांख्यिकी) संयोग से घटित होने की संभावना नहीं है, यदि अशक्त परिकल्पना सत्य थी। परीक्षण का नाम इसके निर्माण और इसके संभावित परिणाम का वर्णन करता है। परीक्षण की एक विशेषता इसका स्पष्ट निर्णय है: अशक्त परिकल्पना को अस्वीकार या अस्वीकार नहीं करना। एक परिकलित मान की तुलना एक सीमा से की जाती है, जो त्रुटि के सहनीय खतरा से निर्धारित होता है।

विविधताएं और उप-वर्ग
सांख्यिकीय परिकल्पना परीक्षण बारंबारतावादी अनुमान और बायेसियन अनुमान दोनों की एक प्रमुख तकनीक है, चूंकि दो प्रकार के अनुमानों में उल्लेखनीय अंतर हैं। सांख्यिकीय परिकल्पना परीक्षण एक ऐसी प्रक्रिया को परिभाषित करते हैं जो गलत रूप से निर्णय लेने की संभावना को नियंत्रित (ठीक) करती है कि एक डिफ़ॉल्ट स्थिति (शून्य परिकल्पना) गलत है। प्रक्रिया इस बात पर आधारित है कि शून्य परिकल्पना के सत्य होने पर प्रेक्षणों के एक समूह के घटित होने की कितनी संभावना है। ध्यान दें कि गलत निर्णय लेने की संभावना यह संभावना नहीं है कि अशक्त परिकल्पना सत्य है, न ही कोई विशिष्ट वैकल्पिक परिकल्पना सत्य है या नहीं। यह निर्णय सिद्धांत की अन्य संभावित तकनीकों के विपरीत है जिसमें अशक्त और वैकल्पिक परिकल्पना को अधिक समान आधार पर व्यवहार किया जाता है।

परिकल्पना परीक्षण के लिए एक भोली बायेसियन सांख्यिकी दृष्टिकोण पश्च संभाव्यता पर निर्णय लेने के लिए है, लेकिन बिंदु और निरंतर परिकल्पनाओं की तुलना करते समय यह विफल हो जाता है। निर्णय लेने के अन्य दृष्टिकोण, जैसे बायेसियन निर्णय सिद्धांत, एक शून्य परिकल्पना पर ध्यान केंद्रित करने के अतिरिक्त सभी संभावनाओं में गलत निर्णयों के परिणामों को संतुलित करने का प्रयास करते हैं। डेटा के आधार पर निर्णय लेने के लिए कई अन्य दृष्टिकोण निर्णय सिद्धांत और इष्टतम निर्णयों के माध्यम से उपलब्ध हैं, जिनमें से कुछ में वांछनीय गुण हैं। परिकल्पना परीक्षण, चूंकि, विज्ञान के कई क्षेत्रों में डेटा विश्लेषण के लिए एक प्रमुख दृष्टिकोण है। परिकल्पना परीक्षण के सिद्धांत के विस्तार में परीक्षणों की सांख्यिकीय शक्ति का अध्ययन सम्मिलित है, अर्थात शून्य परिकल्पना को सही रूप से अस्वीकार करने की संभावना यह देखते हुए कि यह गलत है। डेटा के संग्रह से पहले मानक आकार निर्धारण के प्रयोजन के लिए इस तरह के विचारों का उपयोग किया जा सकता है।

नेमन-पियर्सन परिकल्पना परीक्षण
रेडियोधर्मी सूटकेस उदाहरण में बदलाव करके नेमन-पियर्सन परिकल्पना परीक्षण (या अशक्त परिकल्पना सांख्यिकीय महत्व परीक्षण) का एक उदाहरण बनाया जा सकता है। यदि सूटकेस वास्तविक में रेडियोधर्मी सामग्री के परिवहन के लिए एक परिरक्षित कंटेनर है, तो तीन परिकल्पनाओं के बीच चयन करने के लिए एक परीक्षण का उपयोग किया जा सकता है: कोई रेडियोधर्मी स्रोत उपस्थित नहीं है, एक उपस्थित है, दो (सभी) उपस्थित हैं। प्रत्येक स्थिति में आवश्यक कार्रवाई के साथ सुरक्षा के लिए परीक्षण आवश्यक हो सकता है। परिकल्पना परीक्षण के नेमन-पियर्सन लेम्मा का कहना है कि परिकल्पनाओं के चयन के लिए एक अच्छा मानदंड उनकी संभावनाओं का अनुपात (संभावना-अनुपात परीक्षण) है। समाधान का एक सरल प्रणाली यह है कि देखे गए गाइगर काउंट के लिए उच्चतम संभावना वाली परिकल्पना का चयन किया जाए। विशिष्ट परिणाम अंतर्ज्ञान से मेल खाते हैं: कुछ गणनाओं का कोई स्रोत नहीं है, कई गणनाएँ दो स्रोतों को दर्शाती हैं और मध्यवर्ती गणनाएँ एक स्रोत को दर्शाती हैं। यह भी ध्यान दें कि सामान्यतः प्रमाण के दार्शनिक बोझ नकारात्मक सिद्ध करने के लिए समस्याएं होती हैं। अशक्त परिकल्पना कम से कम असत्यता होनी चाहिए।

नेमन-पियर्सन सिद्धांत पूर्व संभावनाओं और निर्णयों से उत्पन्न कार्यों की लागत दोनों को समायोजित कर सकता है। पूर्व प्रत्येक परीक्षण को पहले के परीक्षणों के परिणामों पर विचार करने की अनुमति देता है (फिशर के महत्व परीक्षणों के विपरीत)। उत्तरार्द्ध आर्थिक मुद्दों (उदाहरण के लिए) के साथ-साथ संभावनाओं पर विचार करने की अनुमति देता है। अनुमानों के बीच चयन करने के लिए एक संभावना अनुपात एक अच्छा मानदंड बना हुआ है।

परिकल्पना परीक्षण के दो रूप विभिन्न समस्या योगों पर आधारित हैं। मूल परीक्षण एक सही/गलत प्रश्न के अनुरूप है; नेमन-पियर्सन परीक्षण बहुविकल्पी की तरह अधिक है। जॉन टुकी की दृष्टि में पूर्व केवल स्थिर साक्ष्य के आधार पर निष्कर्ष निकालता है जबकि बाद वाला उपलब्ध प्रमाण के आधार पर निर्णय लेता है। जबकि दो परीक्षण गणितीय और दार्शनिक रूप से काफी भिन्न प्रतीत होते हैं, बाद के घटनाक्रम विपरीत प्रमाण की ओर ले जाते हैं। कई छोटे रेडियोधर्मी स्रोतों पर विचार करें। परिकल्पनाएं रेडियोधर्मी रेत के 0,1,2,3... दाने बन जाती हैं। कोई नहीं या कुछ विकिरण (फिशर) और रेडियोधर्मी रेत के 0 अनाज बनाम सभी विकल्पों (नेमन-पियर्सन) के बीच थोड़ा अंतर है। 1933 के प्रमुख नेमन-पियर्सन पेपर  को भी समग्र परिकल्पनाओं पर विचार किया गया (जिनके वितरण में एक अज्ञात पैरामीटर सम्मिलित है)। एक उदाहरण ने (छात्र के) टी-टेस्ट की इष्टतमता को सिद्ध कर दिया, विचाराधीन परिकल्पना के लिए कोई बेहतर परीक्षण नहीं हो सकता (पृष्ठ 321)। नेमन-पियर्सन सिद्धांत प्रारंभ से ही फिशरियन प्रणालियों की इष्टतमता सिद्ध कर रहा था।

फिशर के महत्व परीक्षण ने कम गणितीय विकास क्षमता के साथ एक लोकप्रिय लचीला सांख्यिकीय उपकरण सिद्ध किया है। नेमन-पियर्सन परिकल्पना परीक्षण को गणितीय आँकड़ों के स्तंभ के रूप में प्रमाणित किया जाता है, इस क्षेत्र के लिए एक नया प्रतिमान बनाने के लिये इसने सांख्यिकीय प्रक्रिया नियंत्रण, खोज सिद्धांत, निर्णय सिद्धांत और खेल सिद्धांत में नए अनुप्रयोगों को भी प्रेरित किया। दोनों फॉर्मूले सफल रहे हैं, लेकिन सफलताएं अलग तरह की रही हैं।

योगों पर विवाद अनसुलझा है। विज्ञान मुख्य रूप से फिशर के सूत्रीकरण (थोड़ा संशोधित) का उपयोग करता है जैसा कि परिचयात्मक आँकड़ों में सिखाया जाता है। स्नातक विद्यालय में सांख्यिकीविद नेमन-पियर्सन सिद्धांत का अध्ययन करते हैं। गणितज्ञ योगों को एकजुट करने पर गर्व करते हैं। दार्शनिक उन्हें अलग-अलग मानते हैं। विद्वानों की राय विभिन्न रूप से प्रतिस्पर्धी (फिशर बनाम नेमैन) के योगों को असंगत मानती है या पूरक। विवाद और अधिक जटिल हो गया है क्योंकि बायेसियन अनुमान ने सम्मान प्राप्त कर लिया है।

शब्दावली असंगत है। परिकल्पना परीक्षण का अर्थ दो योगों का मिश्रण हो सकता है जो दोनों समय के साथ बदलते हैं। महत्व परीक्षण बनाम परिकल्पना परीक्षण की कोई भी चर्चा भ्रम की दोहरी आशंका में है।

फिशर ने सोचा था कि औद्योगिक गुणवत्ता नियंत्रण करने के लिए परिकल्पना परीक्षण एक उपयोगी रणनीति थी, चूंकि, वह दृढ़ता से असहमत थे कि परिकल्पना परीक्षण वैज्ञानिकों के लिए उपयोगी हो सकता है।

परिकल्पना परीक्षण महत्व परीक्षण में प्रयुक्त परीक्षण आँकड़ों को खोजने का एक साधन प्रदान करता है। शक्ति की अवधारणा महत्व स्तर को समायोजित करने के परिणामों की व्याख्या करने में उपयोगी है और मानक आकार निर्धारण में इसका अत्यधिक उपयोग किया जाता है। दो विधियां दार्शनिक रूप से अलग रहती हैं। वे सामान्यतः (लेकिन सदैव नहीं) समान गणितीय उत्तर देते हैं। पसंदीदा उत्तर संदर्भ पर निर्भर है। जबकि फिशर और नेमन-पियर्सन सिद्धांतों के उपस्थिता विलय की भारी आलोचना की गई है, बायेसियन लक्ष्यों को प्राप्त करने के लिए विलय को संशोधित करने पर विचार किया गया है।

आलोचना
सांख्यिकीय परिकल्पना परीक्षण की आलोचना मात्रा भरती है।    अधिकांश आलोचनाओं को निम्नलिखित मुद्दों द्वारा संक्षेपित किया जा सकता है: अशक्त परिकल्पना महत्व परीक्षण (NHST) की विशेषताओं के बारे में आलोचकों और समर्थकों में काफी हद तक तथ्यात्मक सहमति है: जबकि यह महत्वपूर्ण जानकारी प्रदान कर सकता है, यह सांख्यिकीय विश्लेषण के लिए एकमात्र उपकरण के रूप में अपर्याप्त है। अशक्त परिकल्पना को सफलतापूर्वक अस्वीकार करने से अनुसंधान परिकल्पना के लिए कोई समर्थन नहीं मिल सकता है। निरंतर विवाद उपस्थिता प्रथाओं को देखते हुए निकट भविष्य के लिए सर्वोत्तम सांख्यिकीय प्रथाओं के चयन से संबंधित है। चूंकि, पर्याप्त शोध डिज़ाइन इस मुद्दे को कम कर सकता है। आलोचक एनएचएसटी पर पूरी तरह से प्रतिबंध लगाना पसंद करेंगे, जिससे उन प्रथाओं से पूरी तरह प्रस्थान करने को विवश होना पड़ेगा, जबकि समर्थक कम पूर्ण परिवर्तन का सुझाव देते हैं।
 * पी-वैल्यू की व्याख्या स्टॉपिंग रूल और मल्टीपल कंपेरिजन की परिभाषा पर निर्भर करती है। पूर्व अधिकांश एक अध्ययन के समय बदल जाता है और बाद वाला अनिवार्य रूप से अस्पष्ट होता है। (अर्थात p मान दोनों (डेटा) पर निर्भर करता है और दूसरे संभावित (डेटा) पर निर्भर करता है जो देखे गए थे लेकिन नहीं थे)।
 * भ्रम (आंशिक रूप से) फिशर और नेमन-पियर्सन के प्रणालियों के संयोजन से उत्पन्न होता है जो अवधारणात्मक रूप से अलग हैं।
 * बार-बार प्रयोगों द्वारा अनुमान और पुष्टि के बहिष्करण के लिए सांख्यिकीय महत्व पर जोर।
 * प्रकाशन के लिए कसौटी के रूप में कड़ाई से सांख्यिकीय महत्व की आवश्यकता होती है, जिसके परिणामस्वरूप प्रकाशन पक्षपात होता है। अधिकांश आलोचना अप्रत्यक्ष है। गलत होने के अतिरिक्त, सांख्यिकीय परिकल्पना परीक्षण को गलत समझा गया है, अति प्रयोग और दुरुपयोग किया गया है।
 * जब यह पता लगाने के लिए प्रयोग किया जाता है कि क्या समूहों के बीच कोई अंतर उपस्थित है, तो एक विरोधाभास उत्पन्न होता है। जैसे-जैसे प्रायोगिक डिजाइन में सुधार किए जाते हैं (जैसे माप और मानक आकार की बढ़ी हुई यथार्थता), परीक्षण अधिक उदार हो जाता है। जब तक कोई अर्थहीन धारणा को स्वीकार नहीं करता है कि डेटा में शोर के सभी स्रोत पूरी तरह से रद्द हो जाते हैं, किसी भी दिशा में सांख्यिकीय महत्व खोजने की संभावना 100% तक पहुंच जाती है। चूँकि, यह अर्थहीन धारणा है कि दो समूहों के बीच का अंतर शून्य नहीं हो सकता है, जिसका अर्थ है कि डेटा स्वतंत्र और समान रूप से वितरित नहीं किया जा सकता है (i.i.d.) क्योंकि i.i.d के किसी भी दो उपसमूहों के बीच अपेक्षित अंतर। यादृच्छिक चर शून्य है; इसलिए, आई.आई.डी. धारणा भी अर्थहीन है।
 * दार्शनिक चिंताओं की परतें। सांख्यिकीय महत्व की संभावना प्रयोगकर्ताओं/विश्लेषकों द्वारा किए गए निर्णयों का एक कार्य है। यदि निर्णय परिपाटी पर आधारित होते हैं तो उन्हें इच्छानुसार या अनुभवहीन कहा जाता है <रेफ नाम = गिजेरेंजर 587–606 > जबकि जो इस प्रकार आधारित नहीं हैं उन्हें व्यक्तिपरक कहा जा सकता है। टाइप II त्रुटियों को कम करने के लिए, बड़े मानकों की सिफारिश की जाती है। मनोविज्ञान में व्यावहारिक रूप से सभी अशक्त परिकल्पनाओं को पर्याप्त रूप से बड़े मानकों के लिए झूठा होने का प्रमाणित किया जाता है, इसलिए शून्य परिकल्पना को अस्वीकार करने के एकमात्र उद्देश्य के साथ एक प्रयोग करना सामान्यतः निरर्थक है। रेफरी> सांख्यिकीय रूप से महत्वपूर्ण निष्कर्ष अधिकांश मनोविज्ञान में भ्रामक होते हैं। रेफरी> सांख्यिकीय महत्व का व्यावहारिक महत्व नहीं है, और सहसंबंध का अर्थ कार्य-कारण नहीं है। इस प्रकार अशक्त परिकल्पना पर संदेह करना सामान्यतः अनुसंधान परिकल्पना का समर्थन करने से दूर है।
 * [मैं] t हमें नहीं बताता कि हम क्या जानना चाहते हैं। दर्जनों शिकायतों की सूची उपलब्ध है।

महत्व परीक्षण पर विवाद, और विशेष रूप से प्रकाशन पूर्वाग्रह पर इसके प्रभाव ने कई परिणाम उत्पन्न किए हैं। अमेरिकन साइकोलॉजिकल एसोसिएशन ने समीक्षा के बाद अपनी सांख्यिकीय रिपोर्टिंग आवश्यकताओं को स्थिर किया है, मेडिकल जर्नल के प्रकाशकों ने कुछ परिणामों को प्रकाशित करने के दायित्व को मान्यता दी है जो प्रकाशन पूर्वाग्रह से निपटने के लिए सांख्यिकीय रूप से महत्वपूर्ण नहीं हैं और ऐसे परिणामों को विशेष रूप से प्रकाशित करने के लिए एक पत्रिका (जर्नल ऑफ़ आर्टिकल्स इन सपोर्ट ऑफ़ द नल हाइपोथिसिस) बनाई गई है। पाठ्यपुस्तकों में कुछ सावधानियां जोड़ी गई हैं और महत्वपूर्ण परिणाम उत्पन्न करने के लिए आवश्यक मानक के आकार का अनुमान लगाने के लिए आवश्यक उपकरणों का बढ़ा हुआ कवरेज। प्रमुख संगठनों ने महत्व परीक्षणों का उपयोग नहीं छोड़ा है, चूंकि कुछ ने ऐसा करने पर चर्चा की है।

विकल्प
आलोचकों की एक एकीकृत स्थिति यह है कि आँकड़ों को एक स्वीकार-अस्वीकार निष्कर्ष या निर्णय की ओर नहीं ले जाना चाहिए, अपितु एक अंतराल अनुमान के साथ अनुमानित मूल्य तक ले जाना चाहिए; इस डेटा-विश्लेषण दर्शन को मोटे तौर पर अनुमान सांख्यिकी के रूप में संदर्भित किया जाता है। अनुमान आँकड़े या तो फ़्रीक्वेंटिस्ट या बायेसियन विधियों से प्राप्त किए जा सकते हैं।

महत्व परीक्षण के एक स्थिर आलोचक ने रिपोर्टिंग विकल्पों की एक सूची का सुझाव दिया: महत्व के लिए प्रभाव आकार, विश्वास के लिए भविष्यवाणी अंतराल, प्रतिकृति और प्रतिकृति के लिए विस्तार, सामान्यता के लिए मेटा-विश्लेषण। इनमें से कोई भी सुझाया गया विकल्प निष्कर्ष/निर्णय नहीं देता है। लेहमन ने कहा कि परिकल्पना परीक्षण सिद्धांत को निष्कर्ष/निर्णयों, संभावनाओं, या विश्वास अंतराल के रूप में प्रस्तुत किया जा सकता है। ... दृष्टिकोणों के बीच का अंतर काफी सीमा तक रिपोर्टिंग और व्याख्या में से एक है।

एक विकल्प पर कोई असहमति नहीं है: फिशर ने स्वयं कहा, महत्व के परीक्षण के संबंध में, हम कह सकते हैं कि एक घटना प्रायोगिक रूप से प्रदर्शित होती है जब हम जानते हैं कि एक प्रयोग कैसे करना है जो हमें सांख्यिकीय रूप से महत्वपूर्ण परिणाम देने में संभवतः ही कभी विफल होगा। महत्व परीक्षण के प्रभावशाली आलोचक कोहेन ने सहमति व्यक्त की, ... एनएचएसटी [अशक्त परिकल्पना महत्व परीक्षण] के लिए एक जादुई विकल्प की खोज न करें ... यह उपस्थित नहीं है। ... सांख्यिकीय प्रेरण की समस्याओं को देखते हुए, हमें अंततः प्रतिकृति पर विश्वास करना चाहिए, जैसा कि पुराने विज्ञानों में है। महत्व परीक्षण का विकल्प बार-बार परीक्षण है। सांख्यिकीय अनिश्चितता को कम करने का सबसे आसान प्रणाली अधिक डेटा प्राप्त करना है, चाहे मानक आकार बढ़ाकर या बार-बार परीक्षण करके। निकर्सन ने मनोविज्ञान में शाब्दिक रूप से दोहराए गए प्रयोग के प्रकाशन को कभी नहीं देखे जाने का प्रमाणित किया। प्रतिकृति के लिए एक अप्रत्यक्ष दृष्टिकोण मेटा-विश्लेषण है।

महत्व परीक्षण के लिए बायेसियन अनुमान एक प्रस्तावित विकल्प है। (निकर्सन ने इसका सुझाव देने वाले 10 स्रोतों का हवाला दिया, जिसमें रोज़बूम (1960) भी सम्मिलित है)। उदाहरण के लिए, बायेसियन पैरामीटर अनुमान उस डेटा के बारे में समृद्ध जानकारी प्रदान कर सकता है जिससे शोधकर्ता निष्कर्ष निकाल सकते हैं, जबकि अनिश्चित प्राथमिकताओं का उपयोग करते हुए जो पर्याप्त डेटा उपलब्ध होने पर परिणामों पर केवल न्यूनतम प्रभाव डालते हैं। मनोवैज्ञानिक जॉन के. क्रुश्के ने छात्र के टी-टेस्ट के विकल्प के रूप में बायेसियन अनुमान का सुझाव दिया है और परिकल्पना परीक्षण के लिए बायेसियन मॉडल तुलना के साथ अशक्त मूल्यों का आकलन करने के लिए बायेसियन अनुमान के विपरीत भी है। बेयस कारकों का उपयोग करके दो प्रतिस्पर्धी मॉडल/परिकल्पनाओं की तुलना की जा सकती है। बेयसियन पद्धतियों की आलोचना की जा सकती है कि उन सूचनाओं की आवश्यकता होती है जो उन स्थितियों में संभवतः ही कभी उपलब्ध होती हैं जहां महत्व परीक्षण का सबसे अधिक उपयोग किया जाता है। वैकल्पिक परिकल्पना के अनुसार न तो पूर्व संभावनाएँ और न ही परीक्षण सांख्यिकी का प्रायिकता वितरण अधिकांश सामाजिक विज्ञानों में उपलब्ध होता है।

बायेसियन दृष्टिकोण के पैरोकार कभी-कभी प्रमाणित करते हैं कि एक शोधकर्ता का लक्ष्य अधिकांश निष्पक्षता (विज्ञान) के लिए होता है, इस संभावना का आकलन करता है कि उनके द्वारा एकत्र किए गए डेटा के आधार पर एक परिकल्पना सत्य है।  न तो रोनाल्ड फिशर का महत्व परीक्षण, न ही नेमन-पियर्सन लेम्मा | नेमैन-पियर्सन परिकल्पना परीक्षण यह जानकारी प्रदान कर सकता है, और इसकों प्रमाणित नहीं करता है। परिकल्पना के सत्य होने की संभावना केवल बेयस प्रमेय के उपयोग से प्राप्त की जा सकती है, जो फिशर और नेमन-पियर्सन शिविरों दोनों के लिए असंतोषजनक था क्योंकि पूर्व संभावना के रूप में आत्मनिष्ठता का स्पष्ट उपयोग किया गया था। फिशर की रणनीति इसे पी-वैल्यू (एकल डेटा पर आधारित एक ऑब्जेक्टिव इंडेक्स) के साथ आगमनात्मक अनुमान के साथ दूर करने की है, जबकि नेमन-पियर्सन ने आगमनात्मक व्यवहार के अपने दृष्टिकोण को तैयार किया।

यह भी देखें

 * सांख्यिकी
 * बेहरेंस-फिशर समस्या
 * बूटस्ट्रैपिंग (सांख्यिकी)
 * जाँच करें कि क्या एक सिक्का उचित है
 * तुलना का अर्थ है परीक्षण निर्णय वृक्ष
 * पूर्ण स्थानिक यादृच्छिकता
 * काउंटरनल
 * मिथ्याकरण
 * सांख्यिकीय स्वतंत्रता के संयोजन के लिए फिशर की विधि सांख्यिकीय महत्व
 * ग्रेंजर कारणता
 * देखो-अन्यत्र प्रभाव
 * परिवर्तनीय क्षेत्रीय इकाई समस्या
 * बहुभिन्नरूपी परिकल्पना परीक्षण
 * सर्वग्राही परीक्षण
 * द्विअर्थी सोच
 * लगभग सुनिश्चित परिकल्पना परीक्षण
 * एकाइके सूचना मानदंड
 * बायेसियन सूचना मानदंड

अग्रिम पठन

 * Lehmann E.L. (1992) "Introduction to Neyman and Pearson (1933) On the Problem of the Most Efficient Tests of Statistical Hypotheses". In: Breakthroughs in Statistics, Volume 1, (Eds Kotz, S., Johnson, N.L.), Springer-Verlag. ISBN 0-387-94037-5 (followed by reprinting of the paper)

बाहरी संबंध

 * Bayesian critique of classical hypothesis testing
 * Critique of classical hypothesis testing highlighting long-standing qualms of statisticians
 * Dallal GE (2007) The Little Handbook of Statistical Practice (A good tutorial)
 * References for arguments for and against hypothesis testing
 * Statistical Tests Overview: How to choose the correct statistical test
 * Statistical Analysis based Hypothesis Testing Method in Biological Knowledge Discovery; Md. Naseef-Ur-Rahman Chowdhury, Suvankar Paul, Kazi Zakia Sultana
 * Statistical Tests Overview: How to choose the correct statistical test
 * Statistical Analysis based Hypothesis Testing Method in Biological Knowledge Discovery; Md. Naseef-Ur-Rahman Chowdhury, Suvankar Paul, Kazi Zakia Sultana

ऑनलाइन कैलकुलेटर

 * MBAStats विश्वास अंतराल और परिकल्पना परीक्षण कैलकुलेटर
 * कुछ p-मान और परिकल्पना परीक्षण कैलकुलेटर।

श्रेणी:सांख्यिकीय परिकल्पना परीक्षण श्रेणी:प्रयोगों का डिजाइन श्रेणी:तर्क और सांख्यिकी श्रेणी:गणितीय और मात्रात्मक प्रणाली (अर्थशास्त्र)