सांख्यिकी

सांख्यिकी वह अनुशासन है जो आंकड़ों(डेटा) के संग्रह,संगठन,विश्लेषण,व्याख्या और प्रस्तुति से संबंधित है। किसी वैज्ञानिक,औद्योगिक या सामाजिक समस्या के आंकड़ों को लागू करने में एक सांख्यिकीय जनसंख्या या अध्ययन के लिए एक सांख्यिकीय मॉडल के साथ शुरू करना पारंपरिक है। जनसंख्या लोगों या वस्तुओं के विविध समूह हो सकते हैं जैसे "एक देश में रहने वाले सभी लोग" या "हर परमाणु एक क्रिस्टल की रचना करते हैं"। सांख्यिकी डेटा के हर पहलू से संबंधित है,जिसमें सर्वेक्षण और प्रयोगों के डिजाइन के संदर्भ में आँकड़े (डेटा)संग्रह की योजना शामिल है। जब जनगणना आँकड़े (डेटा) एकत्र नहीं किया जा सकते है, तो सांख्यिकीविद् विशिष्ट प्रयोग डिजाइन और सर्वेक्षण नमूनों को विकसित करकेआँकड़े (डेटा) एकत्र करते हैं।प्रतिनिधि नमूनाकरण  को आश्वासन देता है कि निष्कर्ष और निष्कर्ष समग्र रूप से नमूने से आबादी तक विस्तारित हो सकते हैं। एक प्रायोगिक अध्ययन में अध्ययन के तहत प्रणाली (सिस्टम) की माप लेना,प्रणाली             (सिस्टम) में हेरफेर करना, और फिर यह निर्धारित करने के लिए एक ही प्रक्रिया का उपयोग करके अतिरिक्त माप लेना शामिल है कि क्या हेरफेर ने माप के मूल्यों को संशोधित किया है।इसके विपरीत, एक अवलोकन अध्ययन में प्रयोगात्मक हेरफेर शामिल नहीं है।

आँकड़े(डेटा)विश्लेषण में दो मुख्य सांख्यिकीय तरीकों का उपयोग किया जाता है: वर्णनात्मक आँकड़े, जो एक नमूने से डेटा को संक्षेप में अनुक्रमित या मानक विचलन,और हीन आँकड़े जैसे अनुक्रमित का उपयोग करते हैं, जो डेटा से निष्कर्ष निकालते हैं जो यादृच्छिक भिन्नता के अधीन हैं (जैसे,अवलोकन संबंधी त्रुटियां,अवलोकन संबंधी त्रुटियां,नमूना भिन्नता)। वर्णनात्मक आँकड़े अक्सर एक वितरण (नमूना या जनसंख्या) के गुणों के दो सेटों से संबंधित होते हैं: (केंद्रीय प्रवृत्ति या स्थान) वितरण के केंद्रीय या विशिष्ट मूल्य को चिह्नित करने के लिए चाहता है,जबकि (फैलाव या परिवर्तनशीलता) उस सीमा की विशेषता है जो यह बताता है कि वितरण के सदस्य किस हद तक अपने केंद्र और एक दूसरे से विदा होते हैं। गणितीय आँकड़ों पर अनुमान संभाव्यता सिद्धांत के ढांचे के तहत किए जाते हैं,जो यादृच्छिक घटनाओं के विश्लेषण से संबंधित है।

एक मानक सांख्यिकीय प्रक्रिया में दो सांख्यिकीय डेटा सेट,या एक आदर्श मॉडल से तैयार किए गए डेटा सेट और अवास्तविक आँकड़े (सिंथेटिक डेटा) के बीच संबंध के परीक्षण के लिए अग्रणी डेटा का संग्रह शामिल है। दो डेटा सेटों के बीच सांख्यिकीय संबंध के लिए एक परिकल्पना प्रस्तावित की जाती है,और इसकी तुलना दो डेटा सेटों के बीच बिना किसी संबंध के एक आदर्श शून्य परिकल्पना के विकल्प के रूप में की जाती है। अशक्त परिकल्पना को अस्वीकार करना या नापसंद करना सांख्यिकीय परीक्षणों का उपयोग करके किया जाता है जो उस भावना को निर्धारित करता है जिसमें शून्य को गलत साबित किया जा सकता है, परीक्षण में उपयोग किए जाने वाले डेटा को देखते हुए। एक अशक्त परिकल्पना से काम करते हुए, त्रुटि के दो बुनियादी रूपों को मान्यता दी जाती है: प्रकार(टाइप) 1 त्रुटियां (अशक्त परिकल्पना को गलत तरीके से एक गलत सकारात्मक देते हुए खारिज कर दिया जाता है) और प्रकार(टाइप) 2 त्रुटियां (अशक्त परिकल्पना को अस्वीकार करने में विफल रहता है और आबादी के बीच एक वास्तविक संबंध एक गलत देने से चूक जाता है। नकारात्मक )। पर्याप्त नमूना आकार प्राप्त करने से लेकर पर्याप्त शून्य परिकल्पना निर्दिष्ट करने तक, इस ढांचे के साथ कई समस्याएं जुड़ी हुई हैं।

सांख्यिकीय आँकड़े (डेटा) उत्पन्न करने वाली माप प्रक्रियाएं भी त्रुटि के अधीन हैं। इन त्रुटियों में से कई को यादृच्छिक (शोर) या व्यवस्थित (पूर्वाग्रह) के रूप में वर्गीकृत किया गया है, लेकिन अन्य प्रकार की त्रुटियां (जैसे, ब्लंडर, कि जब कोई विश्लेषक गलत इकाइयों की रिपोर्ट करता है) भी हो सकता है। अनुपस्थित डेटा या रूकहुआ(सेंसरिंग) की उपस्थिति के परिणामस्वरूप पक्षपाती अनुमान हो सकते हैं और इन समस्याओं के समाधान के लिए विशिष्ट तकनीकों को विकसित किया गया है।

परिचय
सांख्यिकी विज्ञान का एक गणितीय निकाय है जो संग्रह, विश्लेषण, व्याख्या या स्पष्टीकरण और आँकड़े (डेटा) की प्रस्तुति से संबंधित है, या गणित की एक शाखा के रूप में। कुछ लोग सांख्यिकी को गणित की एक शाखा के बजाय एक अलग गणितीय विज्ञान मानते हैं। जबकि कई वैज्ञानिक अनुसंधान (जांच) डेटा का उपयोग करते हैं, सांख्यिकी अनिश्चितता के सामने अनिश्चितता और निर्णय लेने के संदर्भ में डेटा के उपयोग से संबंधित है। किसी समस्या के लिए आंकड़ों को लागू करने में, अध्ययन करने के लिए आबादी या प्रक्रिया के साथ शुरू करना आम बात है। आबादी के विविध विषय हो सकते हैं जैसे कि किसी देश में रहने वाले सभी लोग या क्रिस्टल की रचना करने वाले हर परमाणु। आदर्श रूप से, सांख्यिकीविद् पूरी आबादी (जनगणना नामक एक संचालन(ऑपरेशन)) के बारे में डेटा संकलित करते हैं। यह सरकारी सांख्यिकीय संस्थानों द्वारा आयोजित किया जा सकता है। जनसंख्या डेटा को सारांशित करने के लिए वर्णनात्मक आंकड़ों का उपयोग किया जा सकता है। संख्यात्मक विवरणों में निरंतर डेटा (जैसे आय) के लिए माध्य और मानक विचलन शामिल हैं,जबकि आवृत्ति और प्रतिशत श्रेणीबद्ध डेटा (जैसे शिक्षा) का वर्णन करने के संदर्भ में अधिक उपयोगी हैं।

जब एक जनगणना संभव नहीं है, तो एक नमूना नामक आबादी के एक चुने हुए उपवर्ग(सबसेट) का अध्ययन किया जाता है। जब एक नमूना जो जनसंख्या का प्रतिनिधि निर्धारित किया जाता है, डेटा एक अवलोकन या प्रयोगात्मक समायोजन (सेटिंग) में नमूना सदस्यों के लिए एकत्र किया जाता है और फिर से, नमूना डेटा को संक्षेप में वर्णनात्मक आंकड़ों  के लिए उपयोग किया जा सकता है। हालांकि, नमूने को आकर्षित करने में यादृच्छिकता का एक तत्व होता है; इसलिए, नमूने से संख्यात्मक विवरण भी अनिश्चितता के लिए प्रवण हैं। पूरी आबादी के बारे में सार्थक निष्कर्ष निकालने के लिए,  प्रयोगात्मक आंकड़ों की आवश्यकता होती है।  यह नमूना डेटा में पैटर्न का उपयोग करता है ताकि यादृच्छिकता के लिए लेखांकन के दौरान प्रतिनिधित्व की गई आबादी के बारे में निष्कर्ष निकाला जा सके। ये निष्कर्ष डेटा (परिकल्पना परीक्षण) के बारे में हां/नहीं प्रश्नों के उत्तर देने का रूप ले सकते हैं, डेटा (अनुमान) की संख्यात्मक विशेषताओं का आकलन करना, डेटा (सहसंबंध) के भीतर संघों का वर्णन करना, और डेटा के भीतर मॉडलिंग संबंधों (उदाहरण के लिए, उपयोग करना प्रतिगमन विश्लेषण)। अनुमान पूर्वानुमान, भविष्यवाणी, और अनियंत्रित मूल्यों के अनुमान के लिए या तो अध्ययन किए जा रहे आबादी के साथ जुड़ा हो सकता है। इसमें समय श्रृंखला या स्थानिक डेटा, और डेटा खनन के बहिर्वेशन (एक्सट्रपलेशन)और प्रक्षेप शामिल हो सकते हैं।

गणितीय सांख्यिकी
गणितीय आँकड़े सांख्यिकी के लिए गणित का अनुप्रयोग है।इसके लिए उपयोग की जाने वाली गणितीय तकनीकों में गणितीय विश्लेषण,रैखिक बीजगणित, स्टोकेस्टिक विश्लेषण, अंतर समीकरण और माप-सिद्धांत संबंधी संभावना सिद्धांत शामिल हैं।

इतिहास


8 वीं और 13 वीं शताब्दी के बीच इस्लामिक स्वर्ण युग के दौरान, अरब गणितज्ञों और क्रिप्टोग्राफर्स के लिए सांख्यिकीय अनुमानों पर प्रारंभिक लेखन वापस आते हैं। अल-खलील (717–786) ने क्रिप्टोग्राफिक संदेशों की पुस्तक लिखी, जिसमें विक्ट का पहला उपयोग शामिल है: क्रमपरिवर्तन और संयोजन, सभी संभावित अरबी शब्दों के साथ और बिना स्वर (वावल्स) को सूचीबद्ध करने के लिए। अपनी पुस्तक में, पांडुलिपि को समझने पर (ऑन डेसीपिंग) क्रिप्टोग्राफिक संदेशों, अल-किंडी ने एन्क्रिप्टेड संदेशों को समझने के लिए आवृत्ति विश्लेषण का उपयोग करने का विस्तृत विवरण दिया।अल-किंडी ने सांख्यिकीय अनुमानों का जल्द से जल्द ज्ञात उपयोग भी किया, जबकि उन्होंने और बाद में अरब क्रिप्टोग्राफर ने एन्क्रिप्टेड संदेशों को डिकोड करने के लिए प्रारंभिक सांख्यिकीय तरीके विकसित किए। इब्न अदलान (1187–1268) ने बाद में आवृत्ति विश्लेषण में नमूना आकार के उपयोग पर एक महत्वपूर्ण योगदान दिया।

आंकड़ों पर सबसे पुराना यूरोपीय लेखन 1663 में वापस आता है, जॉन ग्रंट द्वारा मृत्यु दर के बिलों पर प्राकृतिक और राजनीतिक टिप्पणियों के प्रकाशन के साथ। सांख्यिकीय सोच के शुरुआती अनुप्रयोग जनसांख्यिकीय और आर्थिक डेटा पर आधार नीति के लिए राज्यों की जरूरतों के इर्द-गिर्द घूमते हैं, इसलिए इसकी स्टेट-व्युत्पत्ति कहतेहै ।सांख्यिकी के अनुशासन का दायरा 19 वीं शताब्दी की शुरुआत में सामान्य रूप से डेटा के संग्रह और विश्लेषण को शामिल करने के लिए व्यापक हुआ।आज,आंकड़े व्यापक रूप से सरकार, व्यापार और प्राकृतिक और सामाजिक विज्ञान में नियोजित हैं।

आधुनिक आंकड़ों की गणितीय नींव 17 वीं शताब्दी में गेरोलमो कार्डानो, ब्लाइस पास्कल और पियरे डी फर्मेट द्वारा संभाव्यता सिद्धांत के विकास के साथ रखी गई थी।गणितीय संभाव्यता सिद्धांत मौका के खेल के अध्ययन से उत्पन्न हुआ, हालांकि संभावना की अवधारणा को पहले से ही मध्ययुगीन कानून में और दार्शनिकों द्वारा जुआन कारमुएल जैसे दार्शनिकों द्वारा जांच की गई थी। कम से कम वर्गों की विधि को पहली बार 1805 में एड्रियन-मैरी लीजेंड्रे द्वारा वर्णित किया गया था।

सांख्यिकी का आधुनिक क्षेत्र 19 वीं और 20 वीं शताब्दी की शुरुआत में तीन चरणों में उभरा। पहली लहर, सदी के अंत में, फ्रांसिस गैल्टन और कार्ल पियर्सन के काम के नेतृत्व में थी, जिन्होंने आंकड़ों को विश्लेषण के लिए उपयोग किए जाने वाले कठोर गणितीय अनुशासन में बदल दिया, न केवल विज्ञान में, बल्कि उद्योग और राजनीति में भी। गैल्टन के योगदान में मानक विचलन, सहसंबंध, प्रतिगमन विश्लेषण और इन तरीकों के अनुप्रयोग को मानव विशेषताओं की विविधता के अध्ययन के लिए इन तरीकों के अनुप्रयोग में शामिल करना  था- ऊंचाई, वजन, बरौनी की लंबाई दूसरों के बीच। पियर्सन ने पियर्सन उत्पाद-पल सहसंबंध गुणांक विकसित किया, एक उत्पाद-पल के रूप में परिभाषित किया गया, कई अन्य चीजों के बीच नमूनों और पियर्सन वितरण के लिए वितरण की फिटिंग के लिए क्षणों की विधि। गैल्टन और पियर्सन ने बायोमेट्रिका को गणितीय सांख्यिकी और बायोस्टैटिस्टिक्स (तब बायोमेट्री कहा जाता है) के पहले पत्रिका के रूप में स्थापित किया, और बाद में यूनिवर्सिटी कॉलेज लंदन में दुनिया के पहले विश्वविद्यालय के सांख्यिकी विभाग की स्थापना की। रोनाल्ड फिशर ने लेडी चखने वाले चाय प्रयोग के दौरान शून्य परिकल्पना शब्द गढ़ा, जो कभी भी साबित या स्थापित नहीं होता है, लेकिन संभवतः प्रयोग के दौरान, इसे अस्वीकार कर दिया जाता है। 1910 और 20 के दशक की दूसरी लहर विलियम सीली गॉसेट द्वारा शुरू की गई थी, और रोनाल्ड फिशर की अंतर्दृष्टि में इसकी परिणति तक पहुंच गई, जिन्होंने पाठ्यपुस्तकों को लिखा था जो दुनिया भर के विश्वविद्यालयों में शैक्षणिक अनुशासन को परिभाषित करने के लिए थे।फिशर के सबसे महत्वपूर्ण प्रकाशन उनके 1918 के सेमिनल पेपर थे, जो कि मेंडेलियन इनहेरिटेंस (जो सांख्यिकीय शब्द, विचरण का उपयोग करने वाले पहले व्यक्ति), शोध कार्यकर्ताओं के लिए उनके क्लासिक 1925 कार्य सांख्यिकीय विधियों और उनके 1935 में प्रयोगों के डिजाइन पर पहले से ही थे।  जहां उन्होंने प्रयोग मॉडल के कठोर डिजाइन विकसित किए।उन्होंने पर्याप्तता, सहायक सांख्यिकी, फिशर के रैखिक भेदभावकर्ता और फिशर जानकारी की अवधारणाओं की उत्पत्ति की। अपनी 1930 की पुस्तक द जेनिटिकल थ्योरी ऑफ नेचुरल सेलेक्शन में, उन्होंने फिशर के सिद्धांत जैसे विभिन्न जैविक अवधारणाओं पर आंकड़े लागू किए (जिसे  ए.डब्ल्यू.एफ. एडवर्ड्स को शायद विकासवादी जीव विज्ञान में सबसे प्रसिद्ध मना जाने वाला तर्क कहा जाता है) और फिशरियन रनवे,      विकास में पाया गया एक सकारात्मक प्रतिक्रिया भगोड़ा प्रभाव के बारे में यौन चयन में एक अवधारणा हैं।

अंतिम लहर, जो मुख्य रूप से पहले के घटनाक्रमों के शोधन और विस्तार को देखती थी, 1930 के दशक में एगॉन पियर्सन और जेरज़ी नेमैन के बीच सहयोगी काम से उभरी। उन्होंने टाइप II त्रुटि, एक परीक्षण की शक्ति और आत्मविश्वास अंतराल की अवधारणाओं को पेश किया।1934 में जेरज़ी नेमैन ने दिखाया कि स्तरीकृत यादृच्छिक नमूना सामान्य रूप से उद्देश्यपूर्ण  नमूने की तुलना में अनुमान का एक बेहतर तरीका था। आज, सांख्यिकीय विधियों को उन सभी क्षेत्रों में लागू किया जाता है, जिनमें निर्णय लेना शामिल है ,आंकड़े (डेटा )के एक कोष्ठित निकाय से सटीक निष्कर्ष निकालने के लिए और सांख्यिकीय पद्धति के आधार पर अनिश्चितता के सामने निर्णय लेने के लिए।आधुनिक कंप्यूटरों के उपयोग ने बड़े पैमाने पर सांख्यिकीय संगणनाओं में तेजी लाई है और नए तरीके भी किए हैं जो मैन्युअल रूप से प्रदर्शन करने के लिए अव्यावहारिक हैं।आंकड़े बड़े डेटा का विश्लेषण करने की समस्या पर उदाहरण के लिए सक्रिय अनुसंधान का एक क्षेत्र बने हुए हैं।

नमूना
जब पूर्ण जनगणना आँकड़े(डेटा) एकत्र नहीं किया जा सकता है,तो सांख्यिकीविद् विशिष्ट प्रयोग डिजाइन और सर्वेक्षण नमूनों को विकसित करके नमूना आँकड़े(डेटा) एकत्र करते हैं।सांख्यिकी स्वयं सांख्यिकीय मॉडल के माध्यम से भविष्यवाणी और पूर्वानुमान के लिए उपकरण भी प्रदान करती है।

पूरी आबादी के लिए एक गाइड के रूप में एक नमूने का उपयोग करने के लिए, यह महत्वपूर्ण है कि यह वास्तव में समग्र आबादी का प्रतिनिधित्व करता है। प्रतिनिधि नमूनाकरण का आश्वासन देता है कि निष्कर्ष और निष्कर्ष सुरक्षित रूप से नमूने से आबादी तक पूरे के रूप में विस्तारित हो सकते हैं। एक बड़ी समस्या यह निर्धारित करने में निहित है कि चुना गया नमूना वास्तव में प्रतिनिधि है। सांख्यिकी नमूना और डेटा संग्रह प्रक्रियाओं के भीतर किसी भी पूर्वाग्रह के लिए अनुमान लगाने और सही करने के तरीके प्रदान करता है। प्रयोगों के लिए प्रयोगात्मक डिजाइन के तरीके भी हैं जो एक अध्ययन की शुरुआत में इन मुद्दों को कम कर सकते हैं, जनसंख्या के बारे में सत्य को समझने की क्षमता को मजबूत कर सकते हैं।

नमूना सिद्धांत संभावना सिद्धांत के गणितीय अनुशासन का हिस्सा है। नमूना आंकड़ों के नमूने वितरण का अध्ययन करने के लिए गणितीय आंकड़ों में संभावना का उपयोग किया जाता है और,आमतौर पर, सांख्यिकीय प्रक्रियाओं के गुणों का उपयोग किया जाता है। किसी भी सांख्यिकीय विधि का उपयोग तब मान्य होता है जब सिस्टम या जनसंख्या विचाराधीन विधि की मान्यताओं को संतुष्ट करती है।क्लासिक संभाव्यता सिद्धांत और नमूनाकरण सिद्धांत के बीच के दृष्टिकोण में अंतर, मोटे तौर पर, यह संभावना सिद्धांत कुल आबादी के दिए गए मापदंडों से शुरू होता है जो नमूनों से संबंधित संभावनाओं को कम करने के लिए होता है। सांख्यिकीय अनुमान, हालांकि, विपरीत दिशा में चलता है। नमूनों से एक बड़ी या कुल आबादी के मापदंडों के लिए आगमनात्मक रूप (इंडुक्टिवेली) का उल्लेख करता है।

प्रायोगिक और अवलोकन अध्ययन
एक सांख्यिकीय अनुसंधान परियोजना के लिए एक सामान्य लक्ष्य कार्य -कारण की जांच करना है, और विशेष रूप से आश्रित चर पर भविष्यवक्ताओं या स्वतंत्र चर के मूल्यों में परिवर्तन के प्रभाव पर एक निष्कर्ष निकालने के लिए हैं।दो प्रमुख प्रकार के कारण सांख्यिकीय अध्ययन हैं: प्रयोगात्मक अध्ययन और अवलोकन अध्ययन। दोनों प्रकार के अध्ययनों में,आश्रित चर के व्यवहार पर एक स्वतंत्र चर (या चर) के अंतर का प्रभाव देखा जाता है। दो प्रकारों के बीच का अंतर इस बात पर निहित है कि वास्तव में अध्ययन कैसे किया जाता है। प्रत्येक बहुत प्रभावी हो सकता है।एक प्रायोगिक अध्ययन में अध्ययन के तहत सिस्टम का माप लेना, सिस्टम में हेरफेर करना,और फिर यह निर्धारित करने के लिए एक ही प्रक्रिया का उपयोग करके अतिरिक्त माप लेना शामिल है क्या हेरफेर ने माप के मूल्यों को संशोधित किया है। इसके विपरीत, एक अवलोकन अध्ययन में प्रयोगात्मक हेरफेर शामिल नहीं है। इसके बजाय, डेटा एकत्र किए जाते हैं और भविष्यवक्ताओं और प्रतिक्रिया के बीच सहसंबंधों की जांच की जाती है। जबकि डेटा विश्लेषण के उपकरण यादृच्छिक अध्ययनों से डेटा पर सबसे अच्छा काम करते हैं, वे अन्य प्रकार के डेटा पर भी लागू होते हैं - जैसे प्राकृतिक प्रयोग और अवलोकन अध्ययन क्या, जो एक सांख्यिकीविद् एक संशोधित,अधिक संरचित अनुमान विधि (जैसे, अंतर अनुमान और वाद्य चर में अंतर, कई अन्य लोगों के बीच) का उपयोग करेगा जो लगातार अनुमानक का उत्पादन करते हैं।

प्रयोग
एक सांख्यिकीय प्रयोग के मूल चरण हैं:
 * 1) अनुसंधान की योजना, जिसमें अध्ययन की प्रतिकृति की संख्या का पता लगाना शामिल है, निम्नलिखित जानकारी का उपयोग करते हुए: उपचार प्रभावों के आकार, वैकल्पिक परिकल्पना और अनुमानित प्रयोगात्मक परिवर्तनशीलता के आकार के बारे में प्रारंभिक अनुमान। प्रयोगात्मक विषयों के चयन और अनुसंधान की नैतिकता पर विचार आवश्यक है। सांख्यिकीविद् सलाह देते हैं कि प्रयोगों को एक मानक उपचार या नियंत्रण के साथ एक नए उपचार की तुलना करें, उपचार प्रभावों में अंतर के निष्पक्ष अनुमान की अनुमति देने के लिए।
 * 2) प्रयोगों का डिज़ाइन, भ्रमित चर के प्रभाव को कम करने के लिए अवरुद्ध का उपयोग करके, और उपचार के प्रभावों और प्रयोगात्मक त्रुटि के निष्पक्ष अनुमानों की अनुमति देने के लिए विषयों को उपचार के यादृच्छिक नियत कार्य (असाइनमेंट)। इस स्तर पर, प्रयोगकर्ता और सांख्यिकीविद प्रयोगात्मक प्रोटोकॉल लिखते हैं जो प्रयोग के प्रदर्शन को निर्देशित करेगा और जो प्रयोगात्मक डेटा के प्राथमिक विश्लेषण को निर्दिष्ट करता है।
 * 3) प्रयोगात्मक प्रोटोकॉल के बाद प्रयोग करना और प्रयोगात्मक प्रोटोकॉल के बाद आंकड़ों (डेटा) का विश्लेषण करना।
 * 4) भविष्य के अध्ययन के लिए नई परिकल्पना का सुझाव देने के लिए, द्वितीयक विश्लेषण में सेट किए गए डेटा की जांच करना।
 * 5) अध्ययन के परिणामों का दस्तावेजीकरण और प्रस्तुत करना।

मानव व्यवहार पर प्रयोगों की विशेष चिंताएं हैं। प्रसिद्ध हॉथोर्न अध्ययन ने पश्चिमी इलेक्ट्रिक कंपनी के हॉथोर्न प्लांट में काम के माहौल में बदलाव की जांच की। शोधकर्ता यह निर्धारित करने में रुचि रखते थे कि क्या बढ़ी हुई रोशनी से विधानसभा लाइन श्रमिकों की उत्पादकता बढ़ेगी। शोधकर्ताओं ने पहले संयंत्र में उत्पादकता को मापा, फिर संयंत्र के एक क्षेत्र में रोशनी को संशोधित किया और जांच की कि क्या रोशनी प्रभावित उत्पादकता में परिवर्तन होता है।। यह पता चला कि उत्पादकता वास्तव में (प्रयोगात्मक परिस्थितियों में) में सुधार हुआ है। हालांकि, प्रायोगिक प्रक्रियाओं में त्रुटियों के लिए अध्ययन की आज की भारी आलोचना की जाती है, विशेष रूप से एक नियंत्रण समूह और डबल-ब्लाइंड की कमी के लिए | अंधापन। हॉथोर्न प्रभाव यह पता लगाने के लिए है कि एक परिणाम (इस मामले में, कार्यकर्ता उत्पादकता) अवलोकन के कारण बदल गया। हॉथोर्न अध्ययन में वे अधिक उत्पादक बन गए क्योंकि प्रकाश व्यवस्था को बदल दिया गया था, लेकिन क्योंकि उन्हें देखा जा रहा था।

अवलोकन अध्ययन
एक अवलोकन अध्ययन का एक उदाहरण वह है जो धूम्रपान और फेफड़ों के कैंसर के बीच संबंध की पड़ताल करता है।इस प्रकार का अध्ययन आमतौर पर ब्याज के क्षेत्र के बारे में टिप्पणियों को इकट्ठा करने के लिए एक सर्वेक्षण का उपयोग करता है और फिर सांख्यिकीय विश्लेषण करता है।इस मामले में, शोधकर्ता धूम्रपान करने वालों और गैर-धूम्रपान करने वालों की टिप्पणियों को एकत्र करेंगे, शायद एक कोहोर्ट अध्ययन के माध्यम से, और फिर प्रत्येक समूह में फेफड़े के कैंसर के मामलों की संख्या की तलाश करेंगे। केस-कंट्रोल अध्ययन एक अन्य प्रकार का अवलोकन अध्ययन है जिसमें ब्याज के परिणाम के साथ और बिना (जैसे फेफड़े के कैंसर) को भाग लेने के लिए आमंत्रित किया जाता है और उनके उद्भास (एक्सपोज़र) इतिहास एकत्र किए जाते हैं।

डेटा के प्रकार
माप के स्तरों के एक वर्गीकरण का उत्पादन करने के लिए विभिन्न प्रयास किए गए हैं।साइकोफिजिसिस्ट स्टेनली स्मिथ स्टीवंस ने नाममात्र, क्रमिक, अंतराल और अनुपात तराजू को परिभाषित किया। नाममात्र माप में मूल्यों के बीच सार्थक श्रेणी (रैंक) क्रम नहीं होता है, और किसी एक-से-एक (अंतःक्षेपक (इंजेक्शन)) परिवर्तन की अनुमति देता है।ऑर्डिनल माप में लगातार मूल्यों के बीच अंतर होता है,लेकिन उन मूल्यों के लिए एक सार्थक आदेश होता है, और किसी भी ऑर्डर-संरक्षण परिवर्तन की अनुमति देता है।अंतराल माप में परिभाषित माप के बीच सार्थक दूरी होती है,लेकिन शून्य मान स्वेच्छाचारी है (जैसे कि सेल्सियस या फ़ारेनहाइट में देशांतर और तापमान माप के साथ), और किसी भी रैखिक परिवर्तन की अनुमति देता है।अनुपात माप में एक सार्थक शून्य मूल्य और परिभाषित विभिन्न मापों के बीच की दूरी दोनों होती है,और किसी भी पुनरुत्थान परिवर्तन की अनुमति देती है।

क्योंकि केवल नाममात्र या क्रमिक माप के अनुरूप चर को संख्यात्मक रूप से मापा नहीं जा सकता है,कभी -कभी उन्हें एक साथ श्रेणीबद्ध चर के रूप में समूहीकृत किया जाता है,जबकि अनुपात और अंतराल माप को एक साथ मात्रात्मक चर के रूप में समूहीकृत किया जाता है, जो कि उनकी संख्यात्मक प्रकृति के कारण असतत या निरंतर हो सकता है। इस तरह के भेदों को अक्सर कंप्यूटर विज्ञान में डेटा प्रकार के साथ शिथिल रूप से सहसंबद्ध किया जा सकता है, जिसमें द्विध्रुवीय श्रेणीबद्ध चर को बूलियन डेटा प्रकार के साथ दर्शाया जा सकता है,अभिन्न रूप से सौंपे गए पूर्णांक के साथ पॉलिटोमस श्रेणीबद्ध चर,और वास्तविक डेटा प्रकार के साथ निरंतर चर शामिल हैं।फ्लोटिंग-पॉइंट अंकगणित।लेकिन सांख्यिकीय डेटा प्रकारों के लिए कंप्यूटर विज्ञान डेटा प्रकारों की मैपिंग इस बात पर निर्भर करती है कि बाद में किस वर्गीकरण को लागू किया जा रहा है।

अन्य वर्गीकरण प्रस्तावित किए गए हैं। उदाहरण के लिए, मोस्टेलर और तुकी (1977) प्रतिष्ठित ग्रेड, रैंक, गिनती किए गए अंश, गणना, मात्रा और संतुलन।नेल्डर (1990) निरंतर गणना, निरंतर अनुपात, गणना अनुपात और डेटा के श्रेणीबद्ध मोड का वर्णन किया गया है।(यह भी देखें: क्रिसमैन (1998), वैन डेन बर्ग (1991)। )

विभिन्न प्रकार की माप प्रक्रियाओं से प्राप्त आंकड़ों (डेटा) के लिए विभिन्न प्रकार के सांख्यिकीय तरीकों को लागू करना उचित है या नहीं, यह मुद्दा चर के परिवर्तन और अनुसंधान प्रश्नों की सटीक व्याख्या से संबंधित मुद्दों से जटिल है।डेटा के बीच संबंध और वे जो वर्णन करते हैं, वह केवल इस तथ्य को दर्शाता है कि कुछ प्रकार के सांख्यिकीय बयानों में सत्य मूल्य हो सकते हैं जो कुछ परिवर्तनों के तहत अपरिवर्तनीय नहीं हैं।एक परिवर्तन चिंतन करने के लिए समझदार है या नहीं, यह उस प्रश्न पर निर्भर करता है जो एक जवाब देने की कोशिश कर रहा है।

वर्णनात्मक सांख्यिकी
एक वर्णनात्मक आँकड़ा (गिनती संज्ञा अर्थ में) एक सारांश आँकड़ा है जो मात्रात्मक रूप से जानकारी के संग्रह की विशेषताओं का वर्णन या सारांशित करता है, जबकि द्रव्यमान (मास) संज्ञा अर्थ में वर्णनात्मक आँकड़े उन आंकड़ों का उपयोग और विश्लेषण करने की प्रक्रिया है।वर्णनात्मक आंकड़े हीन आंकड़ों (या आगमनात्मक आंकड़ों) से अलग हैं, उस वर्णनात्मक आंकड़ों में एक नमूने को संक्षेप में प्रस्तुत करना है, बजाय इसके कि डेटा का उपयोग करने के लिए डेटा का उपयोग करने के लिए डेटा का नमूना प्रतिनिधित्व करने के लिए सोचा जाता है।

हीन आँकड़े
सांख्यिकीय अनुमान एक अंतर्निहित संभावना वितरण के गुणों को कम करने के लिए डेटा विश्लेषण का उपयोग करने की प्रक्रिया है। हीन सांख्यिकीय विश्लेषण एक आबादी के गुणों को प्रभावित करता है,उदाहरण के लिए परिकल्पना और व्युत्पन्न अनुमानों का परीक्षण करके।यह माना जाता है कि मनाया गया डेटा सेट एक बड़ी आबादी से नमूना लिया गया है।वर्णनात्मक आंकड़ों के साथ हीन आंकड़े विपरीत हो सकते हैं।वर्णनात्मक आँकड़े पूरी तरह से देखे गए डेटा के गुणों से संबंधित हैं,और यह इस धारणा पर आराम नहीं करता है कि डेटा एक बड़ी आबादी से आता है।

सांख्यिकी, अनुमानक और निर्णायक मात्रा
किसी दिए गए संभाव्यता वितरण के साथ स्वतंत्र रूप से वितरित (IID) यादृच्छिक चर पर विचार करें: मानक सांख्यिकीय अनुमान और अनुमान सिद्धांत एक यादृच्छिक नमूने को परिभाषित करता है क्योंकि इन IID चर के स्तंभ वेक्टर द्वारा दिए गए यादृच्छिक वेक्टर के रूप में। जांच की जा रही आबादी को एक संभाव्यता वितरण द्वारा वर्णित किया गया है जिसमें अज्ञात पैरामीटर हो सकते हैं।

एक आँकड़ा एक यादृच्छिक चर है जो यादृच्छिक नमूने का एक कार्य है, लेकिन लेकिन अज्ञात मापदंडों का एक फलन(फ़ंक्शन) नहीं । सांख्यिकीय की संभावना वितरण,हालांकि,अज्ञात पैरामीटर हो सकते हैं।अब अज्ञात पैरामीटर के एक फलन पर विचार करें: एक अनुमानक एक सांख्यिकीय है जिसका उपयोग इस तरह के कार्य का अनुमान लगाने के लिए किया जाता है।आमतौर पर उपयोग किए जाने वाले अनुमानकों में नमूना माध्य,निष्पक्ष नमूना विचरण और नमूना सहसंयोजक शामिल हैं।

एक यादृच्छिक चर जो यादृच्छिक नमूने और अज्ञात पैरामीटर का एक कार्य है,लेकिन जिसका संभाव्यता वितरण अज्ञात पैरामीटर पर निर्भर नहीं करता है,को एक निर्णायक मात्रा या धुरी कहा जाता है।व्यापक रूप से उपयोग किए जाने वाले निर्णायक (पिवट) में जेड-स्कोर, ची स्क्वायर सांख्यिकीय और छात्र का टी-वैल्यू शामिल है।

किसी दिए गए पैरामीटर के दो अनुमानकों के बीच,कम माध्य वर्ग त्रुटि वाले व्यक्ति को अधिक कुशल कहा जाता है। इसके अलावा, एक अनुमानक को निष्पक्ष कहा जाता है यदि इसका अपेक्षित मूल्य अनुमानित अज्ञात पैरामीटर के वास्तविक मूल्य के बराबर है, और उपगामित (एसिम्प्टोटिक) रूप से निष्पक्ष है यदि इसका अपेक्षित मूल्य इस तरह के पैरामीटर के वास्तविक मूल्य की सीमा पर अभिसरण करता है।

अनुमानकों के लिए अन्य वांछनीय गुणों में शामिल हैं: UMVUE अनुमानक जो अनुमानित किए जाने वाले पैरामीटर के सभी संभावित मूल्यों के लिए सबसे कम विचरण करते हैं (यह आमतौर पर दक्षता की तुलना में सत्यापित करने के लिए एक आसान संपत्ति है) और सुसंगत अनुमानक जो इस तरह के पैरामीटर के सही मूल्य के लिए संभावना में परिवर्तित होते हैं ।

यह अभी भी इस सवाल को छोड़ देता है कि किसी दिए गए स्थिति में अनुमानक कैसे प्राप्त किया जाए और गणना को आगे बढ़ाया जाए, कई तरीकों का प्रस्ताव किया गया है: क्षणों की विधि, अधिकतम संभावना विधि, कम से कम वर्ग विधि और समीकरणों का आकलन करने की अधिक हालिया विधि।

अशक्त परिकल्पना और वैकल्पिक परिकल्पना
सांख्यिकीय जानकारी की व्याख्या में अक्सर एक अशक्त परिकल्पना के विकास को शामिल किया जा सकता है जो आमतौर पर (लेकिन जरूरी नहीं है) कि कोई संबंध चर के बीच मौजूद नहीं है या समय के साथ कोई परिवर्तन नहीं हुआ है। एक नौसिखिया के लिए सबसे अच्छा चित्रण एक आपराधिक परीक्षण द्वारा सामना किया गया विधेय है।अशक्त परिकल्पना, H0, दावा करता है कि प्रतिवादी निर्दोष है, जबकि वैकल्पिक परिकल्पना, H1, दावा करता है कि प्रतिवादी दोषी है।अपराध के संदेह के कारण अभियोग आता है।H0 (यथास्थिति) H1 के विरोध में खड़ा है और जब तक H1 बनाए रखा जाता है एक उचित संदेह से परे साक्ष्य द्वारा समर्थित है।हालांकि, H0 को अस्वीकार करने में विफलताइस मामले में निर्दोषता नहीं है, लेकिन केवल यह है कि सबूत दोषी ठहराने के लिए अपर्याप्त थे तो जरूरी  नहीं है कि H0 स्वीकार करें लेकिन H0 को अस्वीकार करने में विफल रहता है।जबकि कोई एक शून्य परिकल्पना साबित नहीं कर सकता है, कोई यह परीक्षण कर सकता है कि पावर टेस्ट के साथ यह सच होना कितना करीब है, जो टाइप II त्रुटियों के लिए परीक्षण करता है।

जो सांख्यिकीविद् एक वैकल्पिक परिकल्पना कहते हैं, वह केवल एक परिकल्पना है जो अशक्त परिकल्पना का खंडन करती है।

त्रुटि
एक अशक्त परिकल्पना से काम करते हुए, त्रुटि की दो व्यापक श्रेणियों को मान्यता दी जाती है:
 * टाइप I त्रुटियां जहां अशक्त परिकल्पना को गलत तरीके से अस्वीकार कर दिया जाता है, एक गलत सकारात्मक देता है।
 * टाइप II त्रुटियां जहां अशक्त परिकल्पना अस्वीकार करने में विफल रहती है और आबादी के बीच एक वास्तविक अंतर छूट जाता है, एक गलत नकारात्मक देता है।

मानक विचलन का अर्थ उस हद तक है कि एक नमूने में व्यक्तिगत अवलोकन एक केंद्रीय मूल्य से भिन्न होते हैं, जैसे कि नमूना या जनसंख्या का मतलब, जबकि मानक त्रुटि नमूना माध्य और जनसंख्या के बीच अंतर के अनुमान को संदर्भित करती है।

एक सांख्यिकीय त्रुटि वह राशि है जिसके द्वारा एक अवलोकन उसके अपेक्षित मूल्य से भिन्न होता है।एक अवशिष्ट वह राशि है जो एक अवलोकन मूल्य से भिन्न होता है। अपेक्षित मूल्य के अनुमानक को किसी दिए गए नमूने पर मान लिया जाता है (जिसे भविष्यवाणी भी कहा जाता है)।

माध्य चुकता त्रुटि का उपयोग कुशल अनुमानक प्राप्त करने के लिए किया जाता है, अनुमानकों का व्यापक रूप से उपयोग किया जाता है। वर्ग(रूट) माध्य वर्ग त्रुटि केवल माध्य वर्ग त्रुटि का वर्गमूल है।

कई सांख्यिकीय तरीके वर्गों के अवशिष्ट योग को कम करने की कोशिश करते हैं, और इन्हें कम से कम निरपेक्ष विचलन के विपरीत कम से कम वर्गों के तरीके कहा जाता है। उत्तरार्द्ध छोटी और बड़ी त्रुटियों को समान वजन देता है, जबकि पूर्व बड़ी त्रुटियों को अधिक वजन देता है। वर्गों का अवशिष्ट योग भी अलग है, जो प्रतिगमन करने के लिए एक आसान संपत्ति प्रदान करता है। रैखिक प्रतिगमन के लिए लागू कम से कम वर्गों को साधारण कम से कम वर्ग विधि कहा जाता है और अरैखिक प्रतिगमन(नॉनलाइनियर रिग्रेशन) पर लागू कम से कम वर्गों को गैर-रैखिक कम से कम वर्ग कहा जाता है। इसके अलावा एक रैखिक प्रतिगमन मॉडल में मॉडल के गैर -नियतात्मक भाग को त्रुटि शब्द, गड़बड़ी या अधिक सरल शोर कहा जाता है। दोनों रैखिक प्रतिगमन और गैर-रैखिक प्रतिगमन दोनों को बहुपद कम से कम वर्गों में संबोधित किया जाता है, जो स्वतंत्र चर (x अक्ष) और विचलन (त्रुटियों, शोर,उत्तेजना) के एक समारोह के रूप में आश्रित चर ( y अक्ष) की भविष्यवाणी में विचरण का भी वर्णन करता है, अनुमानित (फिट) वक्र से विचलन का भी ।

सांख्यिकीय डेटा उत्पन्न करने वाली माप प्रक्रियाएं भी त्रुटि के अधीन हैं। इन त्रुटियों में से कई को यादृच्छिक (शोर) या व्यवस्थित (पूर्वाग्रह) के रूप मे वर्गीकृत किया गया है, लेकिन अन्य प्रकार की त्रुटियां (जैसे, ब्लंडर, जैसे कि जब कोई विश्लेषक गलत इकाइयों की रिपोर्ट करता है) भी महत्वपूर्ण हो सकता है। लापता डेटा या सेंसरिंग की उपस्थिति के परिणामस्वरूप पक्षपाती अनुमान हो सकते हैं और इन समस्याओं के समाधान के लिए विशिष्ट तकनीकों को विकसित किया गया है।

अंतराल अनुमान
अधिकांश अध्ययन केवल एक आबादी का नमूना हिस्सा है, इसलिए परिणाम पूरी तरह से पूरी आबादी का प्रतिनिधित्व नहीं करते हैं। नमूने से प्राप्त कोई भी अनुमान केवल जनसंख्या मूल्य को अनुमानित करता है। आत्मविश्वास अंतराल सांख्यिकीविदों को यह व्यक्त करने की अनुमति देता है कि नमूना अनुमान पूरी आबादी में सही मूल्य से कैसे निकटता से मेल खाता है। अक्सर उन्हें 95% विश्वास अंतराल के रूप में व्यक्त किया जाता है। औपचारिक रूप से, एक मूल्य के लिए 95% आत्मविश्वास अंतराल एक सीमा है, जहां यदि नमूना और विश्लेषण समान परिस्थितियों में दोहराया गया था (एक अलग डेटासेट की उपज), तो अंतराल में सभी संभावित मामलों के 95% में सही (जनसंख्या) मूल्य शामिल होगा । इसका मतलब यह नहीं है कि विश्वास अंतराल में वास्तविक मूल्य है कि वास्तविक मूल्य 95%है। बार -बार के दृष्टिकोण से, ऐसा दावा भी समझ में नहीं आता है, क्योंकि सही मूल्य एक यादृच्छिक चर नहीं है। या तो सही मूल्य है या दिए गए अंतराल के भीतर नहीं है। हालांकि, यह सच है कि, इससे पहले कि किसी भी डेटा का नमूना लिया जाए और आत्मविश्वास अंतराल का निर्माण करने के तरीके के लिए एक योजना दी जाए, संभावना 95% है कि अभी तक की गणना की गई अंतराल सही मूल्य को कवर करेगा: इस बिंदु पर, अंतराल की सीमाएं अभी तक-से-अवयव यादृच्छिक चर हैं। एक दृष्टिकोण जो एक अंतराल प्राप्त करता है, जिसे सही मूल्य से युक्त होने की संभावना के रूप में व्याख्या की जा सकती है, बायेसियन आँकड़ों से एक विश्वसनीय अंतराल का उपयोग करना है: यह दृष्टिकोण संभावना के रूप में क्या है, इसकी व्याख्या करने के एक अलग तरीके पर निर्भर करता है, यह एक के रूप में है बायेसियन प्रायिकता है।

सिद्धांत रूप में आत्मविश्वास अंतराल सममित या विषम हो सकता है। एक अंतराल विषम हो सकता है क्योंकि यह एक पैरामीटर (बाएं तरफा अंतराल या दाएं पक्षीय अंतराल) के लिए निचले या ऊपरी सीमा के रूप में काम करता है, लेकिन यह विषम भी हो सकता है क्योंकि दो तरफा अंतराल अनुमान के आसपास समरूपता का उल्लंघन करते हैं। कभी -कभी एक आत्मविश्वास अंतराल के लिए सीमा को उपगामित तक पहुंच जाता है और इनका उपयोग वास्तविक सीमाओं को अनुमानित करने के लिए किया जाता है।

महत्व
सांख्यिकी शायद ही कभी विश्लेषण के तहत प्रश्न का एक सरल हां/कोई प्रकार का उत्तर दें।व्याख्या अक्सर संख्याओं पर लागू सांख्यिकीय महत्व के स्तर तक आती है और अक्सर शून्य परिकल्पना को अस्वीकार करने वाले मूल्य की संभावना को संदर्भित करता है (कभी-कभी p मान(वैल्यू)के रूप में )।

मानक दृष्टिकोण एक वैकल्पिक परिकल्पना के खिलाफ एक शून्य परिकल्पना का परीक्षण करना है। एक महत्वपूर्ण क्षेत्र अनुमानक के मूल्यों का सेट है जो अशक्त परिकल्पना का खंडन करता है। टाइप I त्रुटि की संभावना इसलिए संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित है, यह देखते हुए कि अशक्त परिकल्पना सही है (सांख्यिकीय महत्व) और टाइप II त्रुटि की संभावना यह संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित नहीं है। कि वैकल्पिक परिकल्पना सच है। एक परीक्षण की सांख्यिकीय शक्ति संभावना है कि यह सही ढंग से अशक्त परिकल्पना को अस्वीकार कर देता है जब अशक्त परिकल्पना गलत होती है।

सांख्यिकीय महत्व का उल्लेख करने का मतलब यह नहीं है कि वास्तविक दुनिया के संदर्भ में समग्र परिणाम महत्वपूर्ण है। उदाहरण के लिए, एक दवा के एक बड़े अध्ययन में यह दिखाया जा सकता है कि दवा का सांख्यिकीय रूप से महत्वपूर्ण लेकिन बहुत कम लाभकारी प्रभाव होता है, जैसे कि दवा रोगी को ध्यान में रखने में मदद करने की संभावना नहीं है।

यद्यपि सिद्धांत रूप में सांख्यिकीय महत्व का स्वीकार्य स्तर बहस के अधीन हो सकता है, लेकिन महत्व स्तर सबसे बड़ा p मान(value )है जो परीक्षण को अशक्त परिकल्पना को अस्वीकार करने की अनुमति देता है। यह परीक्षण तार्किक रूप से यह कहने के लिए बराबर है कि p मान(value) प्रायिकता है, यह मानते हुए कि शून्य परिकल्पना सच है, कम से कम परीक्षण सांख्यिकीय के रूप में चरम के परिणामस्वरूप। इसलिए, महत्व स्तर जितना छोटा होगा, टाइप I त्रुटि कम करने की संभावना कम होगी।

कुछ समस्याएं आमतौर पर इस ढांचे से जुड़ी होती हैं (परिकल्पना परीक्षण की आलोचना देखें):
 * एक अंतर जो अत्यधिक सांख्यिकीय रूप से महत्वपूर्ण है, अभी भी कोई व्यावहारिक महत्व नहीं हो सकता है, लेकिन इसके लिए ध्यान देने के लिए परीक्षणों को ठीक से तैयार करना संभव है। एक प्रतिक्रिया में p मान(value)  को शामिल करने के लिए केवल महत्व स्तर की रिपोर्टिंग से परे जाना शामिल है। p मान(value)  को जब रिपोर्ट करते हुए कि क्या परिकल्पना को अस्वीकार किया गया है या स्वीकार किया गया है। p मान(value), हालांकि, अवलोकन प्रभाव के आकार या महत्व को इंगित नहीं करता है और बड़े अध्ययनों में मामूली अंतर के महत्व को भी बढ़ा सकता है। एक बेहतर और तेजी से सामान्य दृष्टिकोण विश्वास अंतराल की रिपोर्ट करना है। यद्यपि ये परिकल्पना परीक्षणों या pमानों(values) के समान गणना से उत्पन्न होते हैं, वे प्रभाव के आकार और इसके आसपास की अनिश्चितता दोनों का वर्णन करते हैं।
 * ट्रांसपोज़्ड सशर्त की गिरावट, उर्फ ​​अभियोजक की गिरावट: आलोचनाएँ उत्पन्न होती हैं क्योंकि परिकल्पना परीक्षण दृष्टिकोण एक परिकल्पना (शून्य परिकल्पना) को पसंद करने के लिए मजबूर करता है, क्योंकि जो मूल्यांकन किया जा रहा है वह अवलोकन परिणाम की संभावना है और शून्य परिकल्पना की संभावना है और संभावना नहीं है। अशक्त परिकल्पना को देखा गया परिणाम दिया गया। इस दृष्टिकोण का एक विकल्प बायेसियनअनुमान(इनवेंशन) द्वारा पेश किया जाता है, हालांकि इसके लिए एक पूर्व संभावना स्थापित करने की आवश्यकता होती है।
 * अशक्त परिकल्पना को अस्वीकार करना स्वचालित रूप से वैकल्पिक परिकल्पना साबित नहीं होता है।
 * हीन आँकड़ों में सब कुछ के रूप में यह नमूना आकार पर निर्भर करता है, और इसलिए वसा पूंछ के तहत p मान(value) गंभीर रूप से गलत हो सकता है।

उदाहरण
कुछ प्रसिद्ध सांख्यिकीय परीक्षण और प्रक्रियाएं हैं:

• विचरण का विश्लेषण (एनोवा)

• ची-स्क्वायर टेस्ट

• सहसंबंध

• फैक्टर विश्लेषण

• मान-व्हिटनी 'यू'

• माध्य वर्ग भारित विचलन (एमएसडब्ल्यूडी)

• पियर्सन उत्पाद-क्षण सहसंबंध गुणांक

• प्रतिगमन विश्लेषण

• स्पीयरमैन का रैंक सहसंबंध गुणांक

•  छात्र का 'टी' -टेस्ट

• समय श्रृंखला विश्लेषण

• संयुक्त विश्लेषण

खोजकर्ता डेटा विश्लेषण
खोजपूर्ण आँकड़े(डेटा) विश्लेषण (EDA) उनकी मुख्य विशेषताओं को संक्षेप में प्रस्तुत करने के लिएआँकड़े (डेटा) सेट का विश्लेषण करने के लिए एक दृष्टिकोण है, अक्सर दृश्य विधियों के साथ।एक सांख्यिकीय मॉडल का उपयोग किया जा सकता है या नहीं, लेकिन मुख्य रूप से ईडीए यह देखने के लिए है कि डेटा हमें औपचारिक मॉडलिंग या परिकल्पना परीक्षण कार्य से परे क्या बता सकता है।

दुरुपयोग(मिसु)
आंकड़ों का दुरुपयोग विवरण और व्याख्या में सूक्ष्म लेकिन गंभीर त्रुटियों का उत्पादन कर सकता है - इस अर्थ में कि अनुभवी पेशेवर भी इस तरह की त्रुटियां करते हैं,और इस अर्थ में गंभीर हैं कि वे विनाशकारी निर्णय त्रुटियों को जन्म दे सकते हैं। उदाहरण के लिए, सामाजिक नीति, चिकित्सा अभ्यास, और पुल जैसी संरचनाओं की विश्वसनीयता सभी आंकड़ों के उचित उपयोग पर निर्भर करती है।

यहां तक ​​कि जब सांख्यिकीय तकनीकों को सही ढंग से लागू किया जाता है, तो परिणाम उन लोगों की कमी के लिए व्याख्या करना मुश्किल हो सकता है।आँकड़े(डेटा) में एक प्रवृत्ति का सांख्यिकीय महत्व - जो इस हद तक मापता है कि नमूने में यादृच्छिक भिन्नता के कारण एक प्रवृत्ति किस हद तक हो सकती है -मैं इसके महत्व के सहज ज्ञान युक्त भावना से सहमत नहीं हो सकता है। बुनियादी सांख्यिकीय कौशल (और संदेहवाद) का सेट जिसे लोगों को अपने रोजमर्रा के जीवन में जानकारी से निपटने की आवश्यकता होती है, उसे सांख्यिकीय साक्षरता कहा जाता है।

एक सामान्य धारणा है कि सांख्यिकीय ज्ञान बहुत ही जानबूझकर दुरुपयोग किया गया है, केवल उस आँकड़े(डेटा) की व्याख्या करने के तरीके खोजकर जो प्रस्तुतकर्ता के अनुकूल है। आंकड़ों का अविश्वास और गलतफहमी उद्धरण, झूठ, शापित झूठ, और सांख्यिकी के साथ जुड़ा हुआ है। तीन प्रकार के झूठ हैं: झूठ, शापित झूठ और आंकड़े।आंकड़ों का दुरुपयोग अनजाने और जानबूझकर दोनों हो सकता है, और पुस्तक कैसे आंकड़े के साथ झूठ बोलें, डेरेल हफ द्वारा, विचारों की एक श्रृंखला को रेखांकित करता है।आंकड़ों के उपयोग और दुरुपयोग पर प्रकाश डालने के प्रयास में, विशेष क्षेत्रों में उपयोग की जाने वाली सांख्यिकीय तकनीकों की समीक्षा की जाती है (जैसे कि वार्न, लाजो, रामोस और रिटर (2012))। आंकड़ों के दुरुपयोग से बचने के तरीकों में उचित आरेखों का उपयोग करना और पूर्वाग्रह से बचने में शामिल हैं। दुरुपयोग तब हो सकता है जब निष्कर्षों को अति-अधिकृत किया जाता है और दावा किया जाता है कि वे वास्तव में अधिक से अधिक के प्रतिनिधि हैं, अक्सर या तो जानबूझकर या अनजाने में नमूना पूर्वाग्रह की अनदेखी करते हैं। बार रेखांकन यकीनन उपयोग और समझने के लिए सबसे आसान आरेख हैं, और उन्हें हाथ से या सरल कंप्यूटर कार्यक्रमों के साथ बनाया जा सकता है। दुर्भाग्य से, ज्यादातर लोग पूर्वाग्रह या त्रुटियों की तलाश नहीं करते हैं, इसलिए उन्हें ध्यान नहीं दिया जाता है।इस प्रकार, लोग अक्सर यह मान सकते हैं कि कुछ सच है, भले ही यह अच्छी तरह से प्रतिनिधित्व नहीं करता है। सांख्यिकी और सटीक आंकड़ों से डेटा एकत्र करने के लिए, लिया गया नमूना पूरे का प्रतिनिधि होना चाहिए। हफ के अनुसार, एक नमूने की निर्भरता को [पूर्वाग्रह] द्वारा नष्ट किया जा सकता है ....अपने आप को कुछ हद तक संदेह की अनुमति दें। आंकड़ों की समझ में सहायता करने के लिए हफ ने प्रत्येक मामले में पूछे जाने वाले प्रश्नों की एक श्रृंखला का प्रस्ताव रखा: *


 * ऐसा कौन कहता है?(क्या उसे पीसने के लिए कुल्हाड़ी है?)
 * वह कैसे/वह जानता है?(क्या उसके पास तथ्यों को जानने के लिए संसाधन हैं?)
 * क्या नहीं हैं?(क्या वह हमें पूरी तस्वीर देता है?)
 * क्या किसी ने विषय बदल दिया?(क्या वह हमें गलत समस्या का सही जवाब देता है?)
 * क्या इसका अर्थ बनता है?(क्या उसका निष्कर्ष तार्किक और सुसंगत है जो हम पहले से जानते हैं?)



गलत व्याख्या: सहसंबंध
सहसंबंध की अवधारणा विशेष रूप से संभावित भ्रम के लिए उल्लेखनीय है।एकआँकड़े (डेटा) सेट के सांख्यिकीय विश्लेषण से अक्सर पता चलता है कि विचाराधीन जनसंख्या के दो चर (गुण) एक साथ भिन्न होते हैं, जैसे कि वे जुड़े हुए थे।उदाहरण के लिए, वार्षिक आय का एक अध्ययन जो मृत्यु की उम्र में भी देखता है, यह पा सकता है कि गरीब लोगों को समृद्ध लोगों की तुलना में कम जीवन होता है।दो चर को सहसंबद्ध कहा जाता है;हालाँकि, वे एक दूसरे का कारण हो सकते हैं या नहीं।सहसंबंध घटना एक तिहाई, पहले अचेतन घटना के कारण हो सकती है, जिसे एक दुबला चर या भ्रमित करने वाला चर कहा जाता है।इस कारण से, दो चर के बीच एक कारण संबंध के अस्तित्व का तुरंत अनुमान लगाने का कोई तरीका नहीं है।

लागू सांख्यिकी, सैद्धांतिक आँकड़े और गणितीय आँकड़े
लागू आंकड़े, कभी -कभी सांख्यिकीय विज्ञान के रूप में संदर्भित, वर्णनात्मक आँकड़े और हीन आंकड़ों के अनुप्रयोग को शामिल करता है। सैद्धांतिक आँकड़े सांख्यिकीय अनुमानों के दृष्टिकोण के औचित्य के साथ -साथ गणितीय आंकड़ों को शामिल करने के लिए तार्किक तर्कों की चिंता करते हैं।गणितीय आंकड़ों में न केवल अनुमान और अनुमान के तरीकों से संबंधित परिणामों को प्राप्त करने के लिए आवश्यक संभावना वितरण का हेरफेर शामिल है, बल्कि अभिकलनी(कम्प्यूटेशनल) आंकड़ों के विभिन्न पहलुओं और प्रयोगों के डिजाइन भी शामिल हैं।

सांख्यिकीय सलाहकार उन संगठनों और कंपनियों की मदद कर सकते हैं जिनके पास इन-हाउस विशेषज्ञता उनके विशेष प्रश्नों के लिए प्रासंगिक नहीं है।

मशीन लर्निंग और डेटा माइनिंग
मशीन लर्निंग मॉडल सांख्यिकीय और संभाव्य मॉडल हैं जो अभिकलनी(कम्प्यूटेशनल) एल्गोरिदम के उपयोग के माध्यम से डेटा में पैटर्न को कैप्चर करते हैं।

एकेडमिया में सांख्यिकी
आँकड़े प्राकृतिक और सामाजिक विज्ञान, सरकार और व्यवसाय सहित विभिन्न प्रकार के शैक्षणिक विषयों पर लागू होते हैं।व्यावसायिक सांख्यिकी सेवाओं में सुधार और विपणन अनुसंधान सहित अर्थमिति, ऑडिटिंग और उत्पादन और संचालन में सांख्यिकीय विधियों को लागू करता है। उष्णकटिबंधीय जीव विज्ञान में दो पत्रिकाओं के एक अध्ययन में पाया गया कि 12 सबसे लगातार सांख्यिकीय परीक्षण हैं: विचरण का विश्लेषण (एनोवा), ची-स्क्वायर टेस्ट, छात्र का टी परीक्षण, रैखिक प्रतिगमन, पियर्सन के सहसंबंध गुणांक, मान-व्हिटनी यू टेस्ट, क्रुस्कल-वालिसटेस्ट, शैनन की विविधता सूचकांक, तुकी की रेंज टेस्ट | तुकी का परीक्षण, क्लस्टर विश्लेषण, स्पीयरमैन रैंक सहसंबंध परीक्षण और प्रिंसिपल घटक विश्लेषण।

एक विशिष्ट सांख्यिकी पाठ्यक्रम में वर्णनात्मक आँकड़े, संभावना, द्विपद और सामान्य वितरण, परिकल्पना और आत्मविश्वास अंतराल, रैखिक प्रतिगमन और सहसंबंध का परीक्षण शामिल है। ref> स्नातक छात्रों के लिए आधुनिक मौलिक सांख्यिकीय पाठ्यक्रम सही परीक्षण चयन, परिणाम व्याख्या और मुफ्त सांख्यिकी सॉफ्टवेयर के उपयोग पर ध्यान केंद्रित करते हैं।

सांख्यिकीय कंप्यूटिंग


20 वीं शताब्दी के उत्तरार्ध से शुरू होने वाली कंप्यूटिंग शक्ति में तेजी से और निरंतर वृद्धि का सांख्यिकीय विज्ञान के अभ्यास पर पर्याप्त प्रभाव पड़ा है। प्रारंभिक सांख्यिकीय मॉडल लगभग हमेशा रैखिक मॉडल के वर्ग से थे, लेकिन शक्तिशाली कंप्यूटर, उपयुक्त संख्यात्मक एल्गोरिदम के साथ मिलकर, नॉनलाइनियर मॉडल (जैसे तंत्रिका नेटवर्क) के साथ -साथ नए प्रकार के निर्माण जैसे कि सामान्यीकृत रैखिक मॉडल में वृद्धि हुई है और बहुस्तरीय मॉडल।

बढ़ी हुई कंप्यूटिंग शक्ति ने भी पुनरुत्थान के आधार पर अभिकलनी(कम्प्यूटेशनल) रूप से गहन तरीकों की बढ़ती लोकप्रियता का नेतृत्व किया है, जैसे कि क्रमपरिवर्तन परीक्षण और बूटस्ट्रैप, जबकि गिब्स सैंपलिंग जैसी तकनीकों ने बायेसियन मॉडल के उपयोग को अधिक संभव बना दिया है। कंप्यूटर क्रांति में प्रयोगात्मक और अनुभवजन्य आंकड़ों पर एक नए जोर के साथ आंकड़ों के भविष्य के लिए निहितार्थ हैं। सामान्य और विशेष उद्देश्य सांख्यिकीय सॉफ्टवेयर दोनों की बड़ी संख्या अब उपलब्ध हैं। जटिल सांख्यिकीय गणना में सक्षम उपलब्ध सॉफ़्टवेयर के उदाहरणों में गणित, SAS,SPSS और R जैसे कार्यक्रम शामिल हैं।

व्यावसायिक सांख्यिकी
व्यवसाय में, सांख्यिकी एक व्यापक रूप से उपयोग किया जाने वाला प्रबंधन- और निर्णय समर्थन उपकरण है।यह विशेष रूप से वित्तीय प्रबंधन, विपणन प्रबंधन और उत्पादन, सेवाओं और संचालन प्रबंधन में लागू होता है। सांख्यिकी का उपयोग प्रबंधन लेखांकन और ऑडिटिंग में भी किया जाता है।प्रबंधन विज्ञान का अनुशासन व्यवसाय में सांख्यिकी और अन्य गणित के उपयोग को औपचारिक रूप देता है।(अर्थमिति आर्थिक संबंधों को अनुभवजन्य सामग्री देने के लिए आर्थिक आंकड़ों के लिए सांख्यिकीय तरीकों का अनुप्रयोग है।)

एक विशिष्ट व्यावसायिक सांख्यिकी पाठ्यक्रम व्यवसाय की बड़ी कंपनियों और कवर के लिए अभिप्रेत है वर्णनात्मक आँकड़े (संग्रह, विवरण, विश्लेषण और डेटा का सारांश), संभावना (आमतौर पर द्विपद और सामान्य वितरण), परिकल्पना और आत्मविश्वास अंतराल का परीक्षण, रैखिक प्रतिगमन, और सहसंबंध;(फॉलो-ऑन) पाठ्यक्रमों में पूर्वानुमान, समय श्रृंखला, निर्णय पेड़, कई रैखिक प्रतिगमन, और व्यापार विश्लेषण से अन्य विषय अधिक आम तौर पर शामिल हो सकते हैं।यह सभी देखें ।पेशेवर प्रमाणन कार्यक्रम, जैसे कि CFA, में अक्सर आंकड़ों में विषय शामिल होते हैं।

गणित या कला के लिए लागू आंकड़े
परंपरागत रूप से, आंकड़े एक अर्ध-मानक कार्यप्रणाली का उपयोग करके आरेखण निष्कर्षों से संबंधित थे जो अधिकांश विज्ञानों में सीखने की आवश्यकता थी। यह परंपरा गैर-अनुमान(इन्फेक्शनल) संदर्भों में आंकड़ों के उपयोग के साथ बदल गई है।एक बार एक शुष्क विषय माना जाता था, जिसे कई क्षेत्रों में डिग्री-आवश्यकता के रूप में लिया गया था, अब उत्साह से देखा जाता है। शुरू में कुछ गणितीय शुद्धतावादियों द्वारा प्राप्त, इसे अब कुछ क्षेत्रों में आवश्यक कार्यप्रणाली माना जाता है।
 * संख्या सिद्धांत में, एक वितरण फ़ंक्शन द्वारा उत्पन्न डेटा के बिखराव के भूखंडों को अंतर्निहित पैटर्न को प्रकट करने के लिए आंकड़ों में उपयोग किए जाने वाले परिचित उपकरणों के साथ बदल दिया जा सकता है, जो तब परिकल्पना को जन्म दे सकता है।
 * अराजकता सिद्धांत और फ्रैक्टल ज्यामिति के संयोजन के पूर्वानुमान में आंकड़ों के पूर्वानुमान के तरीकों का उपयोग वीडियो कार्यों को बनाने के लिए किया जा सकता है।
 * जैक्सन पोलक की प्रक्रिया कला कलात्मक प्रयोगों पर निर्भर थी, जिससे प्रकृति में अंतर्निहित वितरण को कलात्मक रूप से प्रकट किया गया था। कंप्यूटर के आगमन के साथ, मूविंग वीडियो आर्ट बनाने और विश्लेषण करने के लिए इस तरह के वितरण-चालित प्राकृतिक प्रक्रियाओं को औपचारिक बनाने के लिए सांख्यिकीय विधियों को लागू किया गया था।
 * सांख्यिकी के तरीकों का उपयोग प्रदर्शन कला में प्रमुख रूप से किया जा सकता है, जैसा कि एक मार्कोव प्रक्रिया के आधार पर एक कार्ड ट्रिक में है जो केवल कुछ समय काम करता है, जिसके अवसर को सांख्यिकीय पद्धति का उपयोग करके भविष्यवाणी की जा सकती है।
 * आंकड़ों का उपयोग मुख्य रूप से कला बनाने के लिए किया जा सकता है, जैसा कि इयानिस ज़ेनकिस द्वारा आविष्कार किए गए सांख्यिकीय या स्टोकेस्टिक संगीत में है, जहां संगीत प्रदर्शन-विशिष्ट है।हालांकि इस प्रकार की कलात्मकता हमेशा अपेक्षित रूप से बाहर नहीं आती है, यह उन तरीकों से व्यवहार करती है जो आंकड़ों का उपयोग करके अनुमानित और ट्यून करने योग्य हैं।

विशेष अनुशासन
सांख्यिकीय तकनीकों का उपयोग वैज्ञानिक और सामाजिक अनुसंधान की एक विस्तृत श्रृंखला में किया जाता है, जिनमें शामिल हैं: बायोस्टैटिस्टिक्स, कम्प्यूटेशनल बायोलॉजी, कम्प्यूटेशनल समाजशास्त्र, नेटवर्क जीव विज्ञान, सामाजिक विज्ञान, समाजशास्त्र और सामाजिक अनुसंधान।पूछताछ के कुछ क्षेत्र ने इतने बड़े पैमाने पर आँकड़ों को लागू किया कि उनके पास विशेष शब्दावली है।इन विषयों में शामिल हैं:

• बीमांकिक विज्ञान (बीमा और वित्त उद्योगों में जोखिम का आकलन करता है)

• एप्लाइड सूचना अर्थशास्त्र

• एस्ट्रोस्टैटिस्टिक्स (खगोलीय डेटा का सांख्यिकीय मूल्यांकन)

• बायोस्टैटिस्टिक्स

• केमोमेट्रिक्स ([रसायन विज्ञान] से डेटा के विश्लेषण के लिए))

• डेटा खनन (डेटा से ज्ञान की खोज के लिए आँकड़ों और पैटर्न मान्यता को लागू करना)

• डेटा विज्ञान

• जनसांख्यिकी (आबादी का सांख्यिकीय अध्ययन)

• अर्थमिति (आर्थिक आंकड़ों का सांख्यिकीय विश्लेषण)

• ऊर्जा के आँकड़े

• इंजीनियरिंग सांख्यिकी

• महामारी विज्ञान (बीमारी का सांख्यिकीय विश्लेषण)

• भूगोल और भौगोलिक सूचना प्रणाली S, विशेष रूप से स्थानिक विश्लेषण में]

• छवि प्रसंस्करण

• ज्यूरीमेट्रिक्स (कानून)

• चिकित्सा सांख्यिकी

• राजनीति विज्ञान

• मनोवैज्ञानिक आंकड़े

• विश्वसनीयता इंजीनियरिंग

• सामाजिक सांख्यिकी

• सांख्यिकीय यांत्रिकी इसके अलावा, विशेष प्रकार के सांख्यिकीय विश्लेषण हैं जिन्होंने अपनी विशेष शब्दावली और कार्यप्रणाली भी विकसित की है: • बूटस्ट्रैप / जैकनाइफ रीसैम्पलिंग

• बहुभिन्नरूपी आँकड़े

• सांख्यिकीय वर्गीकरण

• संरचित डेटा विश्लेषण

• संरचनात्मक समीकरण मॉडलिंग

• सर्वेक्षण पद्धति

• उत्तरजीविता विश्लेषण

• विभिन्न खेलों में सांख्यिकी, विशेष रूप से बेसबॉल - जिसे सबरमेट्रिक्स के रूप में जाना जाता है - और क्रिकेट

सांख्यिकी व्यवसाय और विनिर्माण में भी एक प्रमुख आधार उपकरण बनाते हैं।इसका उपयोग माप प्रणाली परिवर्तनशीलता, नियंत्रण प्रक्रियाओं (सांख्यिकीय प्रक्रिया नियंत्रण या SPC में), आंकड़े(डेटा) को सारांशित करने के लिए और डेटा-संचालित निर्णय लेने के लिए किया जाता है।इन भूमिकाओं में, यह एक महत्वपूर्ण उपकरण है, और शायद एकमात्र विश्वसनीय उपकरण है।

यह भी देखें
• बहुतायत अनुमान

• संभावना और आंकड़ों की शब्दावली

• अकादमिक सांख्यिकीय संघों की सूची

• सांख्यिकी में महत्वपूर्ण प्रकाशनों की सूची

• राष्ट्रीय और अंतर्राष्ट्रीय सांख्यिकीय सेवाओं की सूची

• सांख्यिकीय पैकेजों की सूची (सॉफ्टवेयर)

• सांख्यिकी लेखों की सूची

• विश्वविद्यालय सांख्यिकीय परामर्श केंद्रों की सूची

• संभावना और आंकड़ों में संकेतन

• सांख्यिकी शिक्षा

• विश्व सांख्यिकी दिवस • सांख्यिकी की नींव
 * नींव और सांख्यिकी के प्रमुख क्षेत्र

• सांख्यिकीविदों की सूची

• आधिकारिक आंकड़े

• विचरण का बहुभिन्नरूपी विश्लेषण

अग्रिम पठन

 * Lydia Denworth, "A Significant Problem: Standard scientific methods are under fire. Will anything change?", Scientific American, vol. 321, no. 4 (October 2019), pp. 62–67. "The use of p values for nearly a century [since 1925] to determine statistical significance of experimental results has contributed to an illusion of certainty and [to] reproducibility crises in many scientific fields. There is growing determination to reform statistical analysis... Some [researchers] suggest changing statistical methods, whereas others would do away with a threshold for defining "significant" results." (p. 63.)
 * OpenIntro Statistics, 3rd edition by Diez, Barr, and Cetinkaya-Rundel
 * Stephen Jones, 2010. Statistics in Psychology: Explanations without Equations. Palgrave Macmillan. ISBN 9781137282392.
 * OpenIntro Statistics, 3rd edition by Diez, Barr, and Cetinkaya-Rundel
 * Stephen Jones, 2010. Statistics in Psychology: Explanations without Equations. Palgrave Macmillan. ISBN 9781137282392.

बाहरी संबंध

 * (Electronic Version): TIBCO Software Inc. (2020). Data Science Textbook.
 * Online Statistics Education: An Interactive Multimedia Course of Study. Developed by Rice University (Lead Developer), University of Houston Clear Lake, Tufts University, and National Science Foundation.
 * UCLA Statistical Computing Resources
 * Philosophy of Statistics from the Stanford Encyclopedia of Philosophy

<!

]