सांख्यिकी

सांख्यिकी वह अनुशासन है जो आंकड़ों(डेटा) के संग्रह,संगठन,विश्लेषण,व्याख्या और प्रस्तुति से संबंधित है। किसी वैज्ञानिक,औद्योगिक या सामाजिक समस्या के आंकड़ों को लागू करने में एक सांख्यिकीय जनसंख्या या अध्ययन के लिए एक सांख्यिकीय मॉडल के साथ शुरू करना पारंपरिक है। जनसंख्या लोगों या वस्तुओं के विविध समूह हो सकते हैं जैसे "एक देश में रहने वाले सभी लोग" या "हर परमाणु एक क्रिस्टल की रचना करते हैं"। सांख्यिकी डेटा के हर पहलू से संबंधित है,जिसमें सर्वेक्षण और प्रयोगों के डिजाइन के संदर्भ में आँकड़े (डेटा)संग्रह की योजना शामिल है। जब जनगणना आँकड़े (डेटा) एकत्र नहीं किया जा सकते है, तो सांख्यिकीविद् विशिष्ट प्रयोग डिजाइन और सर्वेक्षण नमूनों को विकसित करकेआँकड़े (डेटा) एकत्र करते हैं।प्रतिनिधि नमूनाकरण का आश्वासन देता है कि निष्कर्ष और निष्कर्ष समग्र रूप से नमूने से आबादी तक विस्तारित हो सकते हैं। एक प्रायोगिक अध्ययन में अध्ययन के तहत प्रणाली (सिस्टम) का माप लेना,प्रणाली            (सिस्टम) में हेरफेर करना, और फिर यह निर्धारित करने के लिए एक ही प्रक्रिया का उपयोग करके अतिरिक्त माप लेना शामिल है कि क्या हेरफेर ने माप के मूल्यों को संशोधित किया है।इसके विपरीत, एक अवलोकन अध्ययन में प्रयोगात्मक हेरफेर शामिल नहीं है।

आँकड़े(डेटा)विश्लेषण में दो मुख्य सांख्यिकीय तरीकों का उपयोग किया जाता है: वर्णनात्मक आँकड़े, जो एक नमूने से डेटा को संक्षेप में अनुक्रमित या मानक विचलन,और हीन आँकड़े जैसे अनुक्रमित का उपयोग करते हैं, जो डेटा से निष्कर्ष निकालते हैं जो यादृच्छिक भिन्नता के अधीन हैं (जैसे,अवलोकन संबंधी त्रुटियां,अवलोकन संबंधी त्रुटियां,नमूना भिन्नता)। वर्णनात्मक आँकड़े अक्सर एक वितरण (नमूना या जनसंख्या) के गुणों के दो सेटों से संबंधित होते हैं: (केंद्रीय प्रवृत्ति या स्थान) वितरण के केंद्रीय या विशिष्ट मूल्य को चिह्नित करने के लिए चाहता है,जबकि (फैलाव या परिवर्तनशीलता) उस सीमा की विशेषता है जो यह बताता है कि वितरण के सदस्य किस हद तक अपने केंद्र और एक दूसरे से विदा होते हैं। गणितीय आँकड़ों पर अनुमान संभाव्यता सिद्धांत के ढांचे के तहत किए जाते हैं,जो यादृच्छिक घटनाओं के विश्लेषण से संबंधित है।

एक मानक सांख्यिकीय प्रक्रिया में दो सांख्यिकीय डेटा सेट,या एक आदर्श मॉडल से तैयार किए गए डेटा सेट और अवास्तविक आँकड़े (सिंथेटिक डेटा) के बीच संबंध के परीक्षण के लिए अग्रणी डेटा का संग्रह शामिल है। दो डेटा सेटों के बीच सांख्यिकीय संबंध के लिए एक परिकल्पना प्रस्तावित की जाती है,और इसकी तुलना दो डेटा सेटों के बीच बिना किसी संबंध के एक आदर्श शून्य परिकल्पना के विकल्प के रूप में की जाती है। अशक्त परिकल्पना को अस्वीकार करना या नापसंद करना सांख्यिकीय परीक्षणों का उपयोग करके किया जाता है जो उस भावना को निर्धारित करता है जिसमें शून्य को गलत साबित किया जा सकता है, परीक्षण में उपयोग किए जाने वाले डेटा को देखते हुए। एक अशक्त परिकल्पना से काम करते हुए, त्रुटि के दो बुनियादी रूपों को मान्यता दी जाती है: प्रकार(टाइप) 1 त्रुटियां (अशक्त परिकल्पना को गलत तरीके से एक गलत सकारात्मक देते हुए खारिज कर दिया जाता है) और प्रकार(टाइप) 2 त्रुटियां (अशक्त परिकल्पना को अस्वीकार करने में विफल रहता है और आबादी के बीच एक वास्तविक संबंध एक गलत देने से चूक जाता है। नकारात्मक )। पर्याप्त नमूना आकार प्राप्त करने से लेकर पर्याप्त शून्य परिकल्पना निर्दिष्ट करने तक, इस ढांचे के साथ कई समस्याएं जुड़ी हुई हैं।

सांख्यिकीय आँकड़े (डेटा) उत्पन्न करने वाली माप प्रक्रियाएं भी त्रुटि के अधीन हैं। इन त्रुटियों में से कई को यादृच्छिक (शोर) या व्यवस्थित (पूर्वाग्रह) के रूप में वर्गीकृत किया गया है, लेकिन अन्य प्रकार की त्रुटियां (जैसे, ब्लंडर, कि जब कोई विश्लेषक गलत इकाइयों की रिपोर्ट करता है) भी हो सकता है। अनुपस्थित डेटा या रूकहुआ(सेंसरिंग) की उपस्थिति के परिणामस्वरूप पक्षपाती अनुमान हो सकते हैं और इन समस्याओं के समाधान के लिए विशिष्ट तकनीकों को विकसित किया गया है।

परिचय
सांख्यिकी विज्ञान का एक गणितीय निकाय है जो संग्रह, विश्लेषण, व्याख्या या स्पष्टीकरण और आँकड़े (डेटा) की प्रस्तुति से संबंधित है, या गणित की एक शाखा के रूप में। कुछ लोग सांख्यिकी को गणित की एक शाखा के बजाय एक अलग गणितीय विज्ञान मानते हैं। जबकि कई वैज्ञानिक अनुसंधान (जांच) डेटा का उपयोग करते हैं, सांख्यिकी अनिश्चितता के सामने अनिश्चितता और निर्णय लेने के संदर्भ में डेटा के उपयोग से संबंधित है। किसी समस्या के लिए आंकड़ों को लागू करने में, अध्ययन करने के लिए आबादी या प्रक्रिया के साथ शुरू करना आम बात है। आबादी के विविध विषय हो सकते हैं जैसे कि किसी देश में रहने वाले सभी लोग या क्रिस्टल की रचना करने वाले हर परमाणु। आदर्श रूप से, सांख्यिकीविद् पूरी आबादी (जनगणना नामक एक संचालन(ऑपरेशन)) के बारे में डेटा संकलित करते हैं। यह सरकारी सांख्यिकीय संस्थानों द्वारा आयोजित किया जा सकता है। जनसंख्या डेटा को सारांशित करने के लिए वर्णनात्मक आंकड़ों का उपयोग किया जा सकता है। संख्यात्मक विवरणों में निरंतर डेटा (जैसे आय) के लिए माध्य और मानक विचलन शामिल हैं,जबकि आवृत्ति और प्रतिशत श्रेणीबद्ध डेटा (जैसे शिक्षा) का वर्णन करने के संदर्भ में अधिक उपयोगी हैं।

जब एक जनगणना संभव नहीं है, तो एक नमूना नामक आबादी के एक चुने हुए उपवर्ग(सबसेट) का अध्ययन किया जाता है। जब एक नमूना जो जनसंख्या का प्रतिनिधि निर्धारित किया जाता है, डेटा एक अवलोकन या प्रयोगात्मक समायोजन (सेटिंग) में नमूना सदस्यों के लिए एकत्र किया जाता है और फिर से, नमूना डेटा को संक्षेप में वर्णनात्मक आंकड़ों  के लिए उपयोग किया जा सकता है। हालांकि, नमूने को आकर्षित करने में यादृच्छिकता का एक तत्व होता है; इसलिए, नमूने से संख्यात्मक विवरण भी अनिश्चितता के लिए प्रवण हैं। पूरी आबादी के बारे में सार्थक निष्कर्ष निकालने के लिए,  प्रयोगात्मक आंकड़ों की आवश्यकता होती है।  यह नमूना डेटा में पैटर्न का उपयोग करता है ताकि यादृच्छिकता के लिए लेखांकन के दौरान प्रतिनिधित्व की गई आबादी के बारे में निष्कर्ष निकाला जा सके। ये निष्कर्ष डेटा (परिकल्पना परीक्षण) के बारे में हां/नहीं प्रश्नों के उत्तर देने का रूप ले सकते हैं, डेटा (अनुमान) की संख्यात्मक विशेषताओं का आकलन करना, डेटा (सहसंबंध) के भीतर संघों का वर्णन करना, और डेटा के भीतर मॉडलिंग संबंधों (उदाहरण के लिए, उपयोग करना प्रतिगमन विश्लेषण)। अनुमान पूर्वानुमान, भविष्यवाणी, और अनियंत्रित मूल्यों के अनुमान के लिए या तो अध्ययन किए जा रहे आबादी के साथ जुड़ा हो सकता है। इसमें समय श्रृंखला या स्थानिक डेटा, और डेटा खनन के बहिर्वेशन (एक्सट्रपलेशन)और प्रक्षेप शामिल हो सकते हैं।

गणितीय सांख्यिकी
गणितीय आँकड़े सांख्यिकी के लिए गणित का अनुप्रयोग है।इसके लिए उपयोग की जाने वाली गणितीय तकनीकों में गणितीय विश्लेषण, रैखिक बीजगणित, स्टोकेस्टिक विश्लेषण, अंतर समीकरण और माप-सिद्धांत संबंधी संभावना सिद्धांत शामिल हैं।

इतिहास


8 वीं और 13 वीं शताब्दी के बीच इस्लामिक स्वर्ण युग के दौरान, अरब गणितज्ञों और क्रिप्टोग्राफर्स के लिए सांख्यिकीय अनुमानों पर प्रारंभिक लेखन वापस आते हैं। अल-खलील (717–786) ने क्रिप्टोग्राफिक संदेशों की पुस्तक लिखी, जिसमें विक्ट का पहला उपयोग शामिल है: क्रमपरिवर्तन और संयोजन, सभी संभावित अरबी शब्दों के साथ और बिना स्वर (वावल्स) को सूचीबद्ध करने के लिए। अपनी पुस्तक में, पांडुलिपि को समझने पर (ऑन डेसीपिंग) क्रिप्टोग्राफिक संदेशों, अल-किंडी ने एन्क्रिप्टेड संदेशों को समझने के लिए आवृत्ति विश्लेषण का उपयोग करने का विस्तृत विवरण दिया।अल-किंडी ने सांख्यिकीय अनुमानों का जल्द से जल्द ज्ञात उपयोग भी किया, जबकि उन्होंने और बाद में अरब क्रिप्टोग्राफर ने एन्क्रिप्टेड संदेशों को डिकोड करने के लिए प्रारंभिक सांख्यिकीय तरीके विकसित किए। इब्न अदलान (1187–1268) ने बाद में आवृत्ति विश्लेषण में नमूना आकार के उपयोग पर एक महत्वपूर्ण योगदान दिया।

आंकड़ों पर सबसे पुराना यूरोपीय लेखन 1663 में वापस आता है, जॉन ग्रंट द्वारा मृत्यु दर के बिलों पर प्राकृतिक और राजनीतिक टिप्पणियों के प्रकाशन के साथ। सांख्यिकीय सोच के शुरुआती अनुप्रयोग जनसांख्यिकीय और आर्थिक डेटा पर आधार नीति के लिए राज्यों की जरूरतों के इर्द-गिर्द घूमते हैं, इसलिए इसकी स्टेट-व्युत्पत्ति कहतेहै ।सांख्यिकी के अनुशासन का दायरा 19 वीं शताब्दी की शुरुआत में सामान्य रूप से डेटा के संग्रह और विश्लेषण को शामिल करने के लिए व्यापक हुआ।आज,आंकड़े व्यापक रूप से सरकार, व्यापार और प्राकृतिक और सामाजिक विज्ञान में नियोजित हैं।

आधुनिक आंकड़ों की गणितीय नींव 17 वीं शताब्दी में गेरोलमो कार्डानो, ब्लाइस पास्कल और पियरे डी फर्मेट द्वारा संभाव्यता सिद्धांत के विकास के साथ रखी गई थी।गणितीय संभाव्यता सिद्धांत मौका के खेल के अध्ययन से उत्पन्न हुआ, हालांकि संभावना की अवधारणा को पहले से ही मध्ययुगीन कानून में और दार्शनिकों द्वारा जुआन कारमुएल जैसे दार्शनिकों द्वारा जांच की गई थी। कम से कम वर्गों की विधि को पहली बार 1805 में एड्रियन-मैरी लीजेंड्रे द्वारा वर्णित किया गया था।

सांख्यिकी का आधुनिक क्षेत्र 19 वीं और 20 वीं शताब्दी की शुरुआत में तीन चरणों में उभरा। पहली लहर, सदी के अंत में, फ्रांसिस गैल्टन और कार्ल पियर्सन के काम के नेतृत्व में थी, जिन्होंने आंकड़ों को विश्लेषण के लिए उपयोग किए जाने वाले कठोर गणितीय अनुशासन में बदल दिया, न केवल विज्ञान में, बल्कि उद्योग और राजनीति में भी। गैल्टन के योगदान में मानक विचलन, सहसंबंध, प्रतिगमन विश्लेषण और इन तरीकों के अनुप्रयोग को मानव विशेषताओं की विविधता के अध्ययन के लिए इन तरीकों के अनुप्रयोग में शामिल करना  था- ऊंचाई, वजन, बरौनी की लंबाई दूसरों के बीच। पियर्सन ने पियर्सन उत्पाद-पल सहसंबंध गुणांक विकसित किया, एक उत्पाद-पल के रूप में परिभाषित किया गया, कई अन्य चीजों के बीच नमूनों और पियर्सन वितरण के लिए वितरण की फिटिंग के लिए क्षणों की विधि। गैल्टन और पियर्सन ने बायोमेट्रिका को गणितीय सांख्यिकी और बायोस्टैटिस्टिक्स (तब बायोमेट्री कहा जाता है) के पहले पत्रिका के रूप में स्थापित किया, और बाद में यूनिवर्सिटी कॉलेज लंदन में दुनिया के पहले विश्वविद्यालय के सांख्यिकी विभाग की स्थापना की। रोनाल्ड फिशर ने लेडी चखने वाले चाय प्रयोग के दौरान शून्य परिकल्पना शब्द गढ़ा, जो कभी भी साबित या स्थापित नहीं होता है, लेकिन संभवतः प्रयोग के दौरान, इसे अस्वीकार कर दिया जाता है। 1910 और 20 के दशक की दूसरी लहर विलियम सीली गॉसेट द्वारा शुरू की गई थी, और रोनाल्ड फिशर की अंतर्दृष्टि में इसकी परिणति तक पहुंच गई, जिन्होंने पाठ्यपुस्तकों को लिखा था जो दुनिया भर के विश्वविद्यालयों में शैक्षणिक अनुशासन को परिभाषित करने के लिए थे।फिशर के सबसे महत्वपूर्ण प्रकाशन उनके 1918 के सेमिनल पेपर थे, जो कि मेंडेलियन इनहेरिटेंस (जो सांख्यिकीय शब्द, विचरण का उपयोग करने वाले पहले व्यक्ति), शोध कार्यकर्ताओं के लिए उनके क्लासिक 1925 कार्य सांख्यिकीय विधियों और उनके 1935 में प्रयोगों के डिजाइन पर पहले से ही थे।  जहां उन्होंने प्रयोग मॉडल के कठोर डिजाइन विकसित किए।उन्होंने पर्याप्तता, सहायक सांख्यिकी, फिशर के रैखिक भेदभावकर्ता और फिशर जानकारी की अवधारणाओं की उत्पत्ति की। अपनी 1930 की पुस्तक द जेनिटिकल थ्योरी ऑफ नेचुरल सेलेक्शन में, उन्होंने फिशर के सिद्धांत जैसे विभिन्न जैविक अवधारणाओं पर आंकड़े लागू किए (जिसे  ए. डब्ल्यू. एफ. एडवर्ड्स को शायद विकासवादी जीव विज्ञान में सबसे प्रसिद्ध मना जाने वाला तर्क कहा जाता है) और फिशरियन रनवे,      विकास में पाया गया एक सकारात्मक प्रतिक्रिया भगोड़ा प्रभाव के बारे में यौन चयन में एक अवधारणा हैं।

अंतिम लहर, जो मुख्य रूप से पहले के घटनाक्रमों के शोधन और विस्तार को देखती थी, 1930 के दशक में एगॉन पियर्सन और जेरज़ी नेमैन के बीच सहयोगी काम से उभरी। उन्होंने टाइप II त्रुटि, एक परीक्षण की शक्ति और आत्मविश्वास अंतराल की अवधारणाओं को पेश किया।1934 में जेरज़ी नेमैन ने दिखाया कि स्तरीकृत यादृच्छिक नमूना सामान्य रूप से उद्देश्यपूर्ण (कोटा) नमूने की तुलना में अनुमान का एक बेहतर तरीका था। आज, सांख्यिकीय विधियों को उन सभी क्षेत्रों में लागू किया जाता है, जिनमें निर्णय लेना शामिल है ,आंकड़े (डेटा )के एक कोष्ठित निकाय से सटीक निष्कर्ष निकालने के लिए और सांख्यिकीय पद्धति के आधार पर अनिश्चितता के सामने निर्णय लेने के लिए।आधुनिक कंप्यूटरों के उपयोग ने बड़े पैमाने पर सांख्यिकीय संगणनाओं में तेजी लाई है और नए तरीके भी किए हैं जो मैन्युअल रूप से प्रदर्शन करने के लिए अव्यावहारिक हैं।आंकड़े बड़े डेटा का विश्लेषण करने की समस्या पर उदाहरण के लिए सक्रिय अनुसंधान का एक क्षेत्र बने हुए हैं।

नमूना
जब पूर्ण जनगणना डेटा एकत्र नहीं किया जा सकता है,तो सांख्यिकीविद् विशिष्ट प्रयोग डिजाइन और सर्वेक्षण नमूनों को विकसित करके नमूना डेटा एकत्र करते हैं।सांख्यिकी स्वयं सांख्यिकीय मॉडल के माध्यम से भविष्यवाणी और पूर्वानुमान के लिए उपकरण भी प्रदान करती है।

पूरी आबादी के लिए एक गाइड के रूप में एक नमूने का उपयोग करने के लिए, यह महत्वपूर्ण है कि यह वास्तव में समग्र आबादी का प्रतिनिधित्व करता है। प्रतिनिधि नमूनाकरण का आश्वासन देता है कि निष्कर्ष और निष्कर्ष सुरक्षित रूप से नमूने से आबादी तक पूरे के रूप में विस्तारित हो सकते हैं। एक बड़ी समस्या यह निर्धारित करने में निहित है कि चुना गया नमूना वास्तव में प्रतिनिधि है। सांख्यिकी नमूना और डेटा संग्रह प्रक्रियाओं के भीतर किसी भी पूर्वाग्रह के लिए अनुमान लगाने और सही करने के तरीके प्रदान करता है। प्रयोगों के लिए प्रयोगात्मक डिजाइन के तरीके भी हैं जो एक अध्ययन की शुरुआत में इन मुद्दों को कम कर सकते हैं, जनसंख्या के बारे में सत्य को समझने की क्षमता को मजबूत कर सकते हैं।

नमूना सिद्धांत संभावना सिद्धांत के गणितीय अनुशासन का हिस्सा है। नमूना आंकड़ों के नमूने वितरण का अध्ययन करने के लिए गणितीय आंकड़ों में संभावना का उपयोग किया जाता है और, आम तौर पर, सांख्यिकीय प्रक्रियाओं के गुणों का उपयोग किया जाता है। किसी भी सांख्यिकीय विधि का उपयोग तब मान्य होता है जब सिस्टम या जनसंख्या विचाराधीन विधि की मान्यताओं को संतुष्ट करती है। क्लासिक संभाव्यता सिद्धांत और नमूनाकरण सिद्धांत के बीच के दृष्टिकोण में अंतर, मोटे तौर पर, यह संभावना सिद्धांत कुल आबादी के दिए गए मापदंडों से शुरू होता है जो नमूनों से संबंधित संभावनाओं को कम करने के लिए होता है। सांख्यिकीय अनुमान, हालांकि, विपरीत दिशा में चलता है - नमूनों से एक बड़ी या कुल आबादी के मापदंडों के लिए आगमनात्मक रूप (इंडुक्टिवेली) का उल्लेख करता है।

प्रायोगिक और अवलोकन अध्ययन
एक सांख्यिकीय अनुसंधान परियोजना के लिए एक सामान्य लक्ष्य कार्य -कारण की जांच करना है, और विशेष रूप से आश्रित चर पर भविष्यवक्ताओं या स्वतंत्र चर के मूल्यों में परिवर्तन के प्रभाव पर एक निष्कर्ष निकालने के लिए। दो प्रमुख प्रकार के कारण सांख्यिकीय अध्ययन हैं: प्रयोगात्मक अध्ययन और अवलोकन अध्ययन। दोनों प्रकार के अध्ययनों में, आश्रित चर के व्यवहार पर एक स्वतंत्र चर (या चर) के अंतर का प्रभाव देखा जाता है। दो प्रकारों के बीच का अंतर इस बात पर निहित है कि वास्तव में अध्ययन कैसे किया जाता है। प्रत्येक बहुत प्रभावी हो सकता है। एक प्रायोगिक अध्ययन में अध्ययन के तहत सिस्टम का माप लेना, सिस्टम में हेरफेर करना, और फिर यह निर्धारित करने के लिए एक ही प्रक्रिया का उपयोग करके अतिरिक्त माप लेना शामिल है कि क्या हेरफेर ने माप के मूल्यों को संशोधित किया है। इसके विपरीत, एक अवलोकन अध्ययन में प्रयोगात्मक हेरफेर शामिल नहीं है। इसके बजाय, डेटा एकत्र किए जाते हैं और भविष्यवक्ताओं और प्रतिक्रिया के बीच सहसंबंधों की जांच की जाती है। जबकि डेटा विश्लेषण के उपकरण यादृच्छिक अध्ययनों से डेटा पर सबसे अच्छा काम करते हैं, वे अन्य प्रकार के डेटा पर भी लागू होते हैं - जैसे प्राकृतिक प्रयोग और अवलोकन अध्ययन —क्या, जो एक सांख्यिकीविद् एक संशोधित, अधिक संरचित अनुमान विधि (जैसे, अंतर अनुमान और वाद्य चर में अंतर, कई अन्य लोगों के बीच) का उपयोग करेगा जो लगातार अनुमानक का उत्पादन करते हैं।

प्रयोग
एक सांख्यिकीय प्रयोग के मूल चरण हैं:
 * 1) अनुसंधान की योजना, जिसमें अध्ययन की प्रतिकृति की संख्या का पता लगाना शामिल है, निम्नलिखित जानकारी का उपयोग करते हुए: उपचार प्रभावों के आकार, वैकल्पिक परिकल्पना और अनुमानित प्रयोगात्मक परिवर्तनशीलता के आकार के बारे में प्रारंभिक अनुमान। प्रयोगात्मक विषयों के चयन और अनुसंधान की नैतिकता पर विचार आवश्यक है। सांख्यिकीविद् सलाह देते हैं कि प्रयोगों को एक मानक उपचार या नियंत्रण के साथ एक नए उपचार की तुलना करें, उपचार प्रभावों में अंतर के निष्पक्ष अनुमान की अनुमति देने के लिए।
 * 2) प्रयोगों का डिज़ाइन, भ्रमित चर के प्रभाव को कम करने के लिए अवरुद्ध का उपयोग करके, और उपचार के प्रभावों और प्रयोगात्मक त्रुटि के निष्पक्ष अनुमानों की अनुमति देने के लिए विषयों को उपचार के यादृच्छिक असाइनमेंट। इस स्तर पर, प्रयोगकर्ता और सांख्यिकीविद प्रयोगात्मक प्रोटोकॉल लिखते हैं जो प्रयोग के प्रदर्शन को निर्देशित करेगा और जो प्रयोगात्मक डेटा के प्राथमिक विश्लेषण को निर्दिष्ट करता है।
 * 3) प्रयोगात्मक प्रोटोकॉल के बाद प्रयोग करना और प्रयोगात्मक प्रोटोकॉल के बाद डेटा का विश्लेषण करना।
 * 4) भविष्य के अध्ययन के लिए नई परिकल्पना का सुझाव देने के लिए, द्वितीयक विश्लेषण में सेट किए गए डेटा की जांच करना।
 * 5) अध्ययन के परिणामों का दस्तावेजीकरण और प्रस्तुत करना।

मानव व्यवहार पर प्रयोगों की विशेष चिंताएं हैं। प्रसिद्ध हॉथोर्न अध्ययन ने पश्चिमी इलेक्ट्रिक कंपनी के हॉथोर्न प्लांट में काम के माहौल में बदलाव की जांच की। शोधकर्ता यह निर्धारित करने में रुचि रखते थे कि क्या बढ़ी हुई रोशनी से विधानसभा लाइन श्रमिकों की उत्पादकता बढ़ेगी। शोधकर्ताओं ने पहले संयंत्र में उत्पादकता को मापा, फिर संयंत्र के एक क्षेत्र में रोशनी को संशोधित किया और जांच की कि क्या रोशनी प्रभावित उत्पादकता में परिवर्तन। यह पता चला कि उत्पादकता वास्तव में (प्रयोगात्मक परिस्थितियों में) में सुधार हुआ है। हालांकि, प्रायोगिक प्रक्रियाओं में त्रुटियों के लिए अध्ययन की आज की भारी आलोचना की जाती है, विशेष रूप से एक नियंत्रण समूह और डबल-ब्लाइंड की कमी के लिए | अंधापन। हॉथोर्न प्रभाव यह पता लगाने के लिए है कि एक परिणाम (इस मामले में, कार्यकर्ता उत्पादकता) अवलोकन के कारण बदल गया। हॉथोर्न अध्ययन में वे अधिक उत्पादक बन गए क्योंकि प्रकाश व्यवस्था को बदल दिया गया था, लेकिन क्योंकि उन्हें देखा जा रहा था।

अवलोकन अध्ययन
एक अवलोकन अध्ययन का एक उदाहरण वह है जो धूम्रपान और फेफड़ों के कैंसर के बीच संबंध की पड़ताल करता है।इस प्रकार का अध्ययन आम तौर पर ब्याज के क्षेत्र के बारे में टिप्पणियों को इकट्ठा करने के लिए एक सर्वेक्षण का उपयोग करता है और फिर सांख्यिकीय विश्लेषण करता है।इस मामले में, शोधकर्ता धूम्रपान करने वालों और गैर-धूम्रपान करने वालों की टिप्पणियों को एकत्र करेंगे, शायद एक कोहोर्ट अध्ययन के माध्यम से, और फिर प्रत्येक समूह में फेफड़े के कैंसर के मामलों की संख्या की तलाश करेंगे। एक केस-कंट्रोल अध्ययन एक अन्य प्रकार का अवलोकन अध्ययन है जिसमें ब्याज के परिणाम के साथ और बिना (जैसे फेफड़े के कैंसर) को भाग लेने के लिए आमंत्रित किया जाता है और उनके एक्सपोज़र इतिहास एकत्र किए जाते हैं।

डेटा के प्रकार
माप के स्तरों के एक वर्गीकरण का उत्पादन करने के लिए विभिन्न प्रयास किए गए हैं। साइकोफिजिसिस्ट स्टेनली स्मिथ स्टीवंस ने नाममात्र, क्रमिक, अंतराल और अनुपात तराजू को परिभाषित किया। नाममात्र माप में मूल्यों के बीच सार्थक रैंक आदेश नहीं होता है, और किसी एक-से-एक (इंजेक्शन) परिवर्तन की अनुमति देता है। ऑर्डिनल माप में लगातार मूल्यों के बीच अंतर होता है, लेकिन उन मूल्यों के लिए एक सार्थक आदेश होता है, और किसी भी ऑर्डर-संरक्षण परिवर्तन की अनुमति देता है। अंतराल माप में परिभाषित माप के बीच सार्थक दूरी होती है, लेकिन शून्य मान मनमाना है (जैसे कि सेल्सियस या फ़ारेनहाइट में देशांतर और तापमान माप के साथ), और किसी भी रैखिक परिवर्तन की अनुमति देता है। अनुपात माप में एक सार्थक शून्य मूल्य और परिभाषित विभिन्न मापों के बीच की दूरी दोनों होती है, और किसी भी पुनरुत्थान परिवर्तन की अनुमति देती है।

क्योंकि केवल नाममात्र या क्रमिक माप के अनुरूप चर को संख्यात्मक रूप से मापा नहीं जा सकता है, कभी -कभी उन्हें एक साथ श्रेणीबद्ध चर के रूप में समूहीकृत किया जाता है, जबकि अनुपात और अंतराल माप को एक साथ मात्रात्मक चर के रूप में समूहीकृत किया जाता है, जो कि उनकी संख्यात्मक प्रकृति के कारण असतत या निरंतर हो सकता है। इस तरह के भेदों को अक्सर कंप्यूटर विज्ञान में डेटा प्रकार के साथ शिथिल रूप से सहसंबद्ध किया जा सकता है, जिसमें द्विध्रुवीय श्रेणीबद्ध चर को बूलियन डेटा प्रकार के साथ दर्शाया जा सकता है, अभिन्न रूप से सौंपे गए पूर्णांक के साथ पॉलिटोमस श्रेणीबद्ध चर, और वास्तविक डेटा प्रकार के साथ निरंतर चर शामिल हैं। फ्लोटिंग-पॉइंट अंकगणित। लेकिन सांख्यिकीय डेटा प्रकारों के लिए कंप्यूटर विज्ञान डेटा प्रकारों की मैपिंग इस बात पर निर्भर करती है कि बाद में किस वर्गीकरण को लागू किया जा रहा है।

अन्य वर्गीकरण प्रस्तावित किए गए हैं। उदाहरण के लिए, मोस्टेलर और तुकी (1977) प्रतिष्ठित ग्रेड, रैंक, गिनती किए गए अंश, गणना, मात्रा और संतुलन।नेल्डर (1990) निरंतर गणना, निरंतर अनुपात, गणना अनुपात और डेटा के श्रेणीबद्ध मोड का वर्णन किया गया है।(यह भी देखें: क्रिसमैन (1998), वैन डेन बर्ग (1991)। )

विभिन्न प्रकार की माप प्रक्रियाओं से प्राप्त डेटा के लिए विभिन्न प्रकार के सांख्यिकीय तरीकों को लागू करना उचित है या नहीं, यह मुद्दा चर के परिवर्तन और अनुसंधान प्रश्नों की सटीक व्याख्या से संबंधित मुद्दों से जटिल है।डेटा के बीच संबंध और वे जो वर्णन करते हैं, वह केवल इस तथ्य को दर्शाता है कि कुछ प्रकार के सांख्यिकीय बयानों में सत्य मूल्य हो सकते हैं जो कुछ परिवर्तनों के तहत अपरिवर्तनीय नहीं हैं।एक परिवर्तन चिंतन करने के लिए समझदार है या नहीं, यह उस प्रश्न पर निर्भर करता है जो एक जवाब देने की कोशिश कर रहा है।

वर्णनात्मक सांख्यिकी
एक वर्णनात्मक आँकड़ा (गिनती संज्ञा अर्थ में) एक सारांश आँकड़ा है जो मात्रात्मक रूप से जानकारी के संग्रह की विशेषताओं का वर्णन या सारांशित करता है, जबकि मास संज्ञा अर्थ में वर्णनात्मक आँकड़े उन आंकड़ों का उपयोग और विश्लेषण करने की प्रक्रिया है।वर्णनात्मक आंकड़े हीन आंकड़ों (या आगमनात्मक आंकड़ों) से अलग हैं, उस वर्णनात्मक आंकड़ों में एक नमूने को संक्षेप में प्रस्तुत करना है, बजाय इसके कि डेटा का उपयोग करने के लिए डेटा का उपयोग करने के लिए डेटा का नमूना प्रतिनिधित्व करने के लिए सोचा जाता है।

हीन आँकड़े
सांख्यिकीय अनुमान एक अंतर्निहित संभावना वितरण के गुणों को कम करने के लिए डेटा विश्लेषण का उपयोग करने की प्रक्रिया है। हीन सांख्यिकीय विश्लेषण एक आबादी के गुणों को प्रभावित करता है, उदाहरण के लिए परिकल्पना और व्युत्पन्न अनुमानों का परीक्षण करके।यह माना जाता है कि मनाया गया डेटा सेट एक बड़ी आबादी से नमूना लिया गया है।वर्णनात्मक आंकड़ों के साथ हीन आंकड़े विपरीत हो सकते हैं।वर्णनात्मक आँकड़े पूरी तरह से देखे गए डेटा के गुणों से संबंधित हैं, और यह इस धारणा पर आराम नहीं करता है कि डेटा एक बड़ी आबादी से आता है।

सांख्यिकी, अनुमानक और निर्णायक मात्रा
किसी दिए गए संभाव्यता वितरण के साथ स्वतंत्र रूप से वितरित (IID) यादृच्छिक चर पर विचार करें: मानक सांख्यिकीय अनुमान और अनुमान सिद्धांत एक यादृच्छिक नमूने को परिभाषित करता है क्योंकि इन IID चर के स्तंभ वेक्टर द्वारा दिए गए यादृच्छिक वेक्टर के रूप में। जांच की जा रही आबादी को एक संभाव्यता वितरण द्वारा वर्णित किया गया है जिसमें अज्ञात पैरामीटर हो सकते हैं।

एक आँकड़ा एक यादृच्छिक चर है जो यादृच्छिक नमूने का एक कार्य है, लेकिन । सांख्यिकीय की संभावना वितरण, हालांकि, अज्ञात पैरामीटर हो सकते हैं। अब अज्ञात पैरामीटर के एक समारोह पर विचार करें: एक अनुमानक एक सांख्यिकीय है जिसका उपयोग इस तरह के कार्य का अनुमान लगाने के लिए किया जाता है। आमतौर पर उपयोग किए जाने वाले अनुमानकों में नमूना माध्य, निष्पक्ष नमूना विचरण और नमूना सहसंयोजक शामिल हैं।

एक यादृच्छिक चर जो यादृच्छिक नमूने और अज्ञात पैरामीटर का एक कार्य है, लेकिन जिसका संभाव्यता वितरण अज्ञात पैरामीटर पर निर्भर नहीं करता है, को एक निर्णायक मात्रा या धुरी कहा जाता है। व्यापक रूप से उपयोग किए जाने वाले पिवोट्स में जेड-स्कोर, ची-स्क्वर्ड डिस्ट्रीब्यूशन#एप्लिकेशन शामिल हैं। ची स्क्वायर स्टेटिस्टिक और स्टूडेंट्स स्टूडेंट्स टी-डिस्ट्रीब्यूशन#कैसे टी-डिस्ट्रीब्यूशन उठता है। टी-वैल्यू।

किसी दिए गए पैरामीटर के दो अनुमानकों के बीच, कम माध्य वर्ग त्रुटि वाले एक को अधिक कुशल कहा जाता है। इसके अलावा, एक अनुमानक को निष्पक्ष कहा जाता है कि क्या इसका अपेक्षित मूल्य अज्ञात पैरामीटर के वास्तविक मूल्य के बराबर है, और इस तरह के पैरामीटर के सही मूल्य की सीमा पर सीमा पर परिवर्तित होने पर अज्ञात पैरामीटर के वास्तविक मूल्य के बराबर है।

अनुमानकों के लिए अन्य वांछनीय गुणों में शामिल हैं: UMVUE अनुमानक जो अनुमानित किए जाने वाले पैरामीटर के सभी संभावित मूल्यों के लिए सबसे कम विचरण करते हैं (यह आमतौर पर दक्षता की तुलना में सत्यापित करने के लिए एक आसान संपत्ति है) और सुसंगत अनुमानक जो इस तरह के पैरामीटर के सही मूल्य के लिए संभावना में परिवर्तित होते हैं ।

यह अभी भी इस सवाल को छोड़ देता है कि किसी दिए गए स्थिति में अनुमानक कैसे प्राप्त किया जाए और गणना को आगे बढ़ाया जाए, कई तरीकों का प्रस्ताव किया गया है: क्षणों की विधि, अधिकतम संभावना विधि, कम से कम वर्ग विधि और समीकरणों का आकलन करने की अधिक हालिया विधि।

अशक्त परिकल्पना और वैकल्पिक परिकल्पना
सांख्यिकीय जानकारी की व्याख्या में अक्सर एक अशक्त परिकल्पना के विकास को शामिल किया जा सकता है जो आमतौर पर (लेकिन जरूरी नहीं है) कि कोई संबंध चर के बीच मौजूद नहीं है या समय के साथ कोई परिवर्तन नहीं हुआ है। एक नौसिखिया के लिए सबसे अच्छा चित्रण एक आपराधिक परीक्षण द्वारा सामना किया गया विधेय है।अशक्त परिकल्पना, एच0, दावा करता है कि प्रतिवादी निर्दोष है, जबकि वैकल्पिक परिकल्पना, एच1, दावा करता है कि प्रतिवादी दोषी है।अपराध के संदेह के कारण अभियोग आता है।एच।0 (यथास्थिति) एच के विरोध में खड़ा है1 और जब तक एच बनाए रखा जाता है1 एक उचित संदेह से परे साक्ष्य द्वारा समर्थित है।हालांकि, एच को अस्वीकार करने में विफलता0इस मामले में निर्दोषता नहीं है, लेकिन केवल यह है कि सबूत दोषी ठहराने के लिए अपर्याप्त थे।तो जरूरी जरूरी नहीं है कि एच स्वीकार करें0 लेकिन एच को अस्वीकार करने में विफल रहता है0।जबकि कोई एक शून्य परिकल्पना साबित नहीं कर सकता है, कोई यह परीक्षण कर सकता है कि पावर टेस्ट के साथ यह सच होना कितना करीब है, जो टाइप II त्रुटियों के लिए परीक्षण करता है।

जो सांख्यिकीविद् एक वैकल्पिक परिकल्पना कहते हैं, वह केवल एक परिकल्पना है जो अशक्त परिकल्पना का खंडन करती है।

त्रुटि
एक अशक्त परिकल्पना से काम करते हुए, त्रुटि की दो व्यापक श्रेणियों को मान्यता दी जाती है:
 * टाइप I त्रुटियां जहां अशक्त परिकल्पना को गलत तरीके से अस्वीकार कर दिया जाता है, एक गलत सकारात्मक देता है।
 * टाइप II त्रुटियां जहां अशक्त परिकल्पना अस्वीकार करने में विफल रहती है और आबादी के बीच एक वास्तविक अंतर छूट जाता है, एक गलत नकारात्मक देता है।

मानक विचलन का अर्थ उस हद तक है कि एक नमूने में व्यक्तिगत अवलोकन एक केंद्रीय मूल्य से भिन्न होते हैं, जैसे कि नमूना या जनसंख्या का मतलब, जबकि मानक त्रुटि नमूना माध्य और जनसंख्या के बीच अंतर के अनुमान को संदर्भित करती है।

एक सांख्यिकीय त्रुटि वह राशि है जिसके द्वारा एक अवलोकन उसके अपेक्षित मूल्य से भिन्न होता है।एक अवशिष्ट वह राशि है जो एक अवलोकन मूल्य से भिन्न होता है। अपेक्षित मूल्य के अनुमानक को किसी दिए गए नमूने पर मान लिया जाता है (जिसे भविष्यवाणी भी कहा जाता है)।

माध्य चुकता त्रुटि का उपयोग कुशल अनुमानक प्राप्त करने के लिए किया जाता है, अनुमानकों का व्यापक रूप से उपयोग किया जाता है।रूट माध्य वर्ग त्रुटि केवल माध्य वर्ग त्रुटि का वर्गमूल है।

कई सांख्यिकीय तरीके वर्गों के अवशिष्ट योग को कम करने की कोशिश करते हैं, और इन्हें कम से कम निरपेक्ष विचलन के विपरीत कम से कम वर्गों के तरीके कहा जाता है। उत्तरार्द्ध छोटी और बड़ी त्रुटियों को समान वजन देता है, जबकि पूर्व बड़ी त्रुटियों को अधिक वजन देता है। वर्गों का अवशिष्ट योग भी अलग है, जो प्रतिगमन करने के लिए एक आसान संपत्ति प्रदान करता है। रैखिक प्रतिगमन के लिए लागू कम से कम वर्गों को साधारण कम से कम वर्ग विधि कहा जाता है और नॉनलाइनियर रिग्रेशन पर लागू कम से कम वर्गों को गैर-रैखिक कम से कम वर्ग कहा जाता है। इसके अलावा एक रैखिक प्रतिगमन मॉडल में मॉडल के गैर -नियतात्मक भाग को त्रुटि शब्द, गड़बड़ी या अधिक सरल शोर कहा जाता है। दोनों रैखिक प्रतिगमन और गैर-रैखिक प्रतिगमन दोनों को बहुपद कम से कम वर्गों में संबोधित किया जाता है, जो स्वतंत्र चर (एक्स अक्ष) और विचलन (त्रुटियों, शोर, शोर, शोर, शोर, शोर, शोर, शोर, शोर के एक समारोह के रूप में आश्रित चर (वाई अक्ष) की भविष्यवाणी में विचरण का भी वर्णन करता है। अनुमानित (फिट) वक्र से गड़बड़ी)।

सांख्यिकीय डेटा उत्पन्न करने वाली माप प्रक्रियाएं भी त्रुटि के अधीन हैं। इन त्रुटियों में से कई को यादृच्छिक (शोर) या व्यवस्थित (पूर्वाग्रह) के रूप में वर्गीकृत किया गया है, लेकिन अन्य प्रकार की त्रुटियां (जैसे, ब्लंडर, जैसे कि जब कोई विश्लेषक गलत इकाइयों की रिपोर्ट करता है) भी महत्वपूर्ण हो सकता है। लापता डेटा या सेंसरिंग की उपस्थिति के परिणामस्वरूप पक्षपाती अनुमान हो सकते हैं और इन समस्याओं के समाधान के लिए विशिष्ट तकनीकों को विकसित किया गया है।

अंतराल अनुमान
अधिकांश अध्ययन केवल एक आबादी का नमूना हिस्सा है, इसलिए परिणाम पूरी तरह से पूरी आबादी का प्रतिनिधित्व नहीं करते हैं। नमूने से प्राप्त कोई भी अनुमान केवल जनसंख्या मूल्य को अनुमानित करता है। आत्मविश्वास अंतराल सांख्यिकीविदों को यह व्यक्त करने की अनुमति देता है कि नमूना अनुमान पूरी आबादी में सही मूल्य से कैसे निकटता से मेल खाता है। अक्सर उन्हें 95% विश्वास अंतराल के रूप में व्यक्त किया जाता है। औपचारिक रूप से, एक मूल्य के लिए 95% आत्मविश्वास अंतराल एक सीमा है, जहां यदि नमूना और विश्लेषण समान परिस्थितियों में दोहराया गया था (एक अलग डेटासेट की उपज), तो अंतराल में सभी संभावित मामलों के 95% में सही (जनसंख्या) मूल्य शामिल होगा । इसका मतलब यह नहीं है कि विश्वास अंतराल में वास्तविक मूल्य है कि वास्तविक मूल्य 95%है। बार -बार के दृष्टिकोण से, ऐसा दावा भी समझ में नहीं आता है, क्योंकि सही मूल्य एक यादृच्छिक चर नहीं है। या तो सही मूल्य है या दिए गए अंतराल के भीतर नहीं है। हालांकि, यह सच है कि, इससे पहले कि किसी भी डेटा का नमूना लिया जाए और आत्मविश्वास अंतराल का निर्माण करने के तरीके के लिए एक योजना दी जाए, संभावना 95% है कि अभी तक की गणना की गई अंतराल सही मूल्य को कवर करेगा: इस बिंदु पर, अंतराल की सीमाएं अभी तक-से-अवयव यादृच्छिक चर हैं। एक दृष्टिकोण जो एक अंतराल प्राप्त करता है, जिसे सही मूल्य से युक्त होने की संभावना के रूप में व्याख्या की जा सकती है, बायेसियन आँकड़ों से एक विश्वसनीय अंतराल का उपयोग करना है: यह दृष्टिकोण संभावना के रूप में क्या है, इसकी व्याख्या करने के एक अलग तरीके पर निर्भर करता है, यह एक के रूप में है बायेसियन संभावना।

सिद्धांत रूप में आत्मविश्वास अंतराल सममित या विषम हो सकता है। एक अंतराल विषम हो सकता है क्योंकि यह एक पैरामीटर (बाएं तरफा अंतराल या दाएं पक्षीय अंतराल) के लिए निचले या ऊपरी सीमा के रूप में काम करता है, लेकिन यह विषम भी हो सकता है क्योंकि दो तरफा अंतराल अनुमान के आसपास समरूपता का उल्लंघन करते हैं। कभी -कभी एक आत्मविश्वास अंतराल के लिए सीमा को asymptotically तक पहुंच जाता है और इनका उपयोग वास्तविक सीमाओं को अनुमानित करने के लिए किया जाता है।

महत्व
सांख्यिकी शायद ही कभी विश्लेषण के तहत प्रश्न का एक सरल हां/कोई प्रकार का उत्तर दें।व्याख्या अक्सर संख्याओं पर लागू सांख्यिकीय महत्व के स्तर तक आती है और अक्सर शून्य परिकल्पना को अस्वीकार करने वाले मूल्य की संभावना को संदर्भित करता है (कभी-कभी पी-मान के रूप में संदर्भित)।

मानक दृष्टिकोण एक वैकल्पिक परिकल्पना के खिलाफ एक शून्य परिकल्पना का परीक्षण करना है। एक महत्वपूर्ण क्षेत्र अनुमानक के मूल्यों का सेट है जो अशक्त परिकल्पना का खंडन करता है। टाइप I त्रुटि की संभावना इसलिए संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित है, यह देखते हुए कि अशक्त परिकल्पना सही है (सांख्यिकीय महत्व) और टाइप II त्रुटि की संभावना यह संभावना है कि अनुमानक महत्वपूर्ण क्षेत्र से संबंधित नहीं है। कि वैकल्पिक परिकल्पना सच है। एक परीक्षण की सांख्यिकीय शक्ति संभावना है कि यह सही ढंग से अशक्त परिकल्पना को अस्वीकार कर देता है जब अशक्त परिकल्पना गलत होती है।

सांख्यिकीय महत्व का उल्लेख करने का मतलब यह नहीं है कि वास्तविक दुनिया के संदर्भ में समग्र परिणाम महत्वपूर्ण है। उदाहरण के लिए, एक दवा के एक बड़े अध्ययन में यह दिखाया जा सकता है कि दवा का सांख्यिकीय रूप से महत्वपूर्ण लेकिन बहुत कम लाभकारी प्रभाव होता है, जैसे कि दवा रोगी को ध्यान में रखने में मदद करने की संभावना नहीं है।

यद्यपि सिद्धांत रूप में सांख्यिकीय महत्व का स्वीकार्य स्तर बहस के अधीन हो सकता है, लेकिन महत्व स्तर सबसे बड़ा पी-मान है जो परीक्षण को अशक्त परिकल्पना को अस्वीकार करने की अनुमति देता है। यह परीक्षण तार्किक रूप से यह कहने के लिए बराबर है कि पी-मूल्य संभावना है, यह मानते हुए कि शून्य परिकल्पना सच है, कम से कम परीक्षण सांख्यिकीय के रूप में चरम के परिणामस्वरूप। इसलिए, महत्व स्तर जितना छोटा होगा, टाइप I त्रुटि कम करने की संभावना कम होगी।

कुछ समस्याएं आमतौर पर इस ढांचे से जुड़ी होती हैं (परिकल्पना परीक्षण की आलोचना देखें):
 * एक अंतर जो अत्यधिक सांख्यिकीय रूप से महत्वपूर्ण है, अभी भी कोई व्यावहारिक महत्व नहीं हो सकता है, लेकिन इसके लिए ध्यान देने के लिए परीक्षणों को ठीक से तैयार करना संभव है। एक प्रतिक्रिया में पी-वैल्यू को शामिल करने के लिए केवल महत्व स्तर की रिपोर्टिंग से परे जाना शामिल है। पी-मूल्य को जब रिपोर्ट करते हुए कि क्या परिकल्पना को अस्वीकार किया गया है या स्वीकार किया गया है। पी-मान, हालांकि, अवलोकन प्रभाव के आकार या महत्व को इंगित नहीं करता है और बड़े अध्ययनों में मामूली अंतर के महत्व को भी बढ़ा सकता है। एक बेहतर और तेजी से सामान्य दृष्टिकोण विश्वास अंतराल की रिपोर्ट करना है। यद्यपि ये परिकल्पना परीक्षणों या पी-मानों के समान गणना से उत्पन्न होते हैं, वे प्रभाव के आकार और इसके आसपास की अनिश्चितता दोनों का वर्णन करते हैं।
 * ट्रांसपोज़्ड सशर्त की गिरावट, उर्फ ​​अभियोजक की गिरावट: आलोचनाएँ उत्पन्न होती हैं क्योंकि परिकल्पना परीक्षण दृष्टिकोण एक परिकल्पना (शून्य परिकल्पना) को पसंद करने के लिए मजबूर करता है, क्योंकि जो मूल्यांकन किया जा रहा है वह अवलोकन परिणाम की संभावना है और शून्य परिकल्पना की संभावना है और संभावना नहीं है। अशक्त परिकल्पना को देखा गया परिणाम दिया गया। इस दृष्टिकोण का एक विकल्प बायेसियन इनवेंशन द्वारा पेश किया जाता है, हालांकि इसके लिए एक पूर्व संभावना स्थापित करने की आवश्यकता होती है।
 * अशक्त परिकल्पना को अस्वीकार करना स्वचालित रूप से वैकल्पिक परिकल्पना साबित नहीं होता है।
 * हीन आँकड़ों में सब कुछ के रूप में यह नमूना आकार पर निर्भर करता है, और इसलिए वसा पूंछ के तहत पी-वैल्यू गंभीर रूप से गलत हो सकता है।

उदाहरण
कुछ प्रसिद्ध सांख्यिकीय परीक्षण और प्रक्रियाएं हैं:

• Analysis of variance (ANOVA)

• Chi-squared test

• Correlation

• Factor analysis

• Mann–Whitney U

• Mean square weighted deviation (MSWD)

• Pearson product-moment correlation coefficient

• Regression analysis

• Spearman's rank correlation coefficient

• Student's t-test

• Time series analysis

• Conjoint Analysis

खोजकर्ता डेटा विश्लेषण
खोजपूर्ण डेटा विश्लेषण (EDA) उनकी मुख्य विशेषताओं को संक्षेप में प्रस्तुत करने के लिए डेटा सेट का विश्लेषण करने के लिए एक दृष्टिकोण है, अक्सर दृश्य विधियों के साथ।एक सांख्यिकीय मॉडल का उपयोग किया जा सकता है या नहीं, लेकिन मुख्य रूप से ईडीए यह देखने के लिए है कि डेटा हमें औपचारिक मॉडलिंग या परिकल्पना परीक्षण कार्य से परे क्या बता सकता है।

मिसु
आंकड़ों का दुरुपयोग विवरण और व्याख्या में सूक्ष्म लेकिन गंभीर त्रुटियों का उत्पादन कर सकता है - इस अर्थ में कि अनुभवी पेशेवर भी इस तरह की त्रुटियां करते हैं, और इस अर्थ में गंभीर हैं कि वे विनाशकारी निर्णय त्रुटियों को जन्म दे सकते हैं। उदाहरण के लिए, सामाजिक नीति, चिकित्सा अभ्यास, और पुल जैसी संरचनाओं की विश्वसनीयता सभी आंकड़ों के उचित उपयोग पर निर्भर करती है।

यहां तक ​​कि जब सांख्यिकीय तकनीकों को सही ढंग से लागू किया जाता है, तो परिणाम उन लोगों की कमी के लिए व्याख्या करना मुश्किल हो सकता है। डेटा में एक प्रवृत्ति का सांख्यिकीय महत्व - जो इस हद तक मापता है कि नमूने में यादृच्छिक भिन्नता के कारण एक प्रवृत्ति किस हद तक हो सकती है - मैं इसके महत्व के सहज ज्ञान युक्त भावना से सहमत नहीं हो सकता है। बुनियादी सांख्यिकीय कौशल (और संदेहवाद) का सेट जिसे लोगों को अपने रोजमर्रा के जीवन में जानकारी से निपटने की आवश्यकता होती है, उसे सांख्यिकीय साक्षरता कहा जाता है।

एक सामान्य धारणा है कि सांख्यिकीय ज्ञान सभी-बहुत ही जानबूझकर जानबूझकर दुरुपयोग किया गया है, केवल उस डेटा की व्याख्या करने के तरीके खोजकर जो प्रस्तुतकर्ता के अनुकूल है। आंकड़ों का अविश्वास और गलतफहमी उद्धरण, झूठ, शापित झूठ, और सांख्यिकी के साथ जुड़ा हुआ है। तीन प्रकार के झूठ हैं: झूठ, शापित झूठ और आंकड़े।आंकड़ों का दुरुपयोग अनजाने और जानबूझकर दोनों हो सकता है, और पुस्तक कैसे आंकड़े के साथ झूठ बोलें, डेरेल हफ द्वारा, विचारों की एक श्रृंखला को रेखांकित करता है।आंकड़ों के उपयोग और दुरुपयोग पर प्रकाश डालने के प्रयास में, विशेष क्षेत्रों में उपयोग की जाने वाली सांख्यिकीय तकनीकों की समीक्षा की जाती है (जैसे कि वार्न, लाजो, रामोस और रिटर (2012))। आंकड़ों के दुरुपयोग से बचने के तरीकों में उचित आरेखों का उपयोग करना और पूर्वाग्रह से बचने में शामिल हैं। दुरुपयोग तब हो सकता है जब निष्कर्षों को अति -अधिकृत किया जाता है और दावा किया जाता है कि वे वास्तव में अधिक से अधिक के प्रतिनिधि हैं, अक्सर या तो जानबूझकर या अनजाने में नमूना पूर्वाग्रह की अनदेखी करते हैं। बार रेखांकन यकीनन उपयोग और समझने के लिए सबसे आसान आरेख हैं, और उन्हें हाथ से या सरल कंप्यूटर कार्यक्रमों के साथ बनाया जा सकता है। दुर्भाग्य से, ज्यादातर लोग पूर्वाग्रह या त्रुटियों की तलाश नहीं करते हैं, इसलिए उन्हें ध्यान नहीं दिया जाता है।इस प्रकार, लोग अक्सर यह मान सकते हैं कि कुछ सच है, भले ही यह अच्छी तरह से प्रतिनिधित्व नहीं करता है। सांख्यिकी और सटीक आंकड़ों से डेटा एकत्र करने के लिए, लिया गया नमूना पूरे का प्रतिनिधि होना चाहिए। हफ के अनुसार, एक नमूने की निर्भरता को [पूर्वाग्रह] द्वारा नष्ट किया जा सकता है ... अपने आप को कुछ हद तक संदेह की अनुमति दें। आंकड़ों की समझ में सहायता करने के लिए हफ ने प्रत्येक मामले में पूछे जाने वाले प्रश्नों की एक श्रृंखला का प्रस्ताव रखा: * ऐसा कौन कहता है?(क्या उसे पीसने के लिए कुल्हाड़ी है?)
 * वह कैसे/वह जानता है?(क्या उसके पास तथ्यों को जानने के लिए संसाधन हैं?)
 * क्या नहीं हैं?(क्या वह हमें पूरी तस्वीर देता है?)
 * क्या किसी ने विषय बदल दिया?(क्या वह हमें गलत समस्या का सही जवाब देता है?)
 * क्या इसका अर्थ बनता है?(क्या उसका निष्कर्ष तार्किक और सुसंगत है जो हम पहले से जानते हैं?)



गलत व्याख्या: सहसंबंध
सहसंबंध की अवधारणा विशेष रूप से संभावित भ्रम के लिए उल्लेखनीय है।एक डेटा सेट के सांख्यिकीय विश्लेषण से अक्सर पता चलता है कि विचाराधीन जनसंख्या के दो चर (गुण) एक साथ भिन्न होते हैं, जैसे कि वे जुड़े हुए थे।उदाहरण के लिए, वार्षिक आय का एक अध्ययन जो मृत्यु की उम्र में भी देखता है, यह पा सकता है कि गरीब लोगों को समृद्ध लोगों की तुलना में कम जीवन होता है।दो चर को सहसंबद्ध कहा जाता है;हालाँकि, वे एक दूसरे का कारण हो सकते हैं या नहीं।सहसंबंध घटना एक तिहाई, पहले अचेतन घटना के कारण हो सकती है, जिसे एक दुबला चर या भ्रमित करने वाला चर कहा जाता है।इस कारण से, दो चर के बीच एक कारण संबंध के अस्तित्व का तुरंत अनुमान लगाने का कोई तरीका नहीं है।

लागू सांख्यिकी, सैद्धांतिक आँकड़े और गणितीय आँकड़े
लागू आंकड़े, कभी -कभी सांख्यिकीय विज्ञान के रूप में संदर्भित, वर्णनात्मक आँकड़े और हीन आंकड़ों के अनुप्रयोग को शामिल करता है। सैद्धांतिक आँकड़े सांख्यिकीय अनुमानों के दृष्टिकोण के औचित्य के साथ -साथ गणितीय आंकड़ों को शामिल करने के लिए तार्किक तर्कों की चिंता करते हैं।गणितीय आंकड़ों में न केवल अनुमान और अनुमान के तरीकों से संबंधित परिणामों को प्राप्त करने के लिए आवश्यक संभावना वितरण का हेरफेर शामिल है, बल्कि कम्प्यूटेशनल आंकड़ों के विभिन्न पहलुओं और प्रयोगों के डिजाइन भी शामिल हैं।

सांख्यिकीय सलाहकार उन संगठनों और कंपनियों की मदद कर सकते हैं जिनके पास इन-हाउस विशेषज्ञता उनके विशेष प्रश्नों के लिए प्रासंगिक नहीं है।

मशीन लर्निंग और डेटा माइनिंग
मशीन लर्निंग मॉडल सांख्यिकीय और संभाव्य मॉडल हैं जो कम्प्यूटेशनल एल्गोरिदम के उपयोग के माध्यम से डेटा में पैटर्न को कैप्चर करते हैं।

एकेडमिया में सांख्यिकी
आँकड़े प्राकृतिक और सामाजिक विज्ञान, सरकार और व्यवसाय सहित विभिन्न प्रकार के शैक्षणिक विषयों पर लागू होते हैं।व्यावसायिक सांख्यिकी सेवाओं में सुधार और विपणन अनुसंधान सहित अर्थमिति, ऑडिटिंग और उत्पादन और संचालन में सांख्यिकीय विधियों को लागू करता है। उष्णकटिबंधीय जीव विज्ञान में दो पत्रिकाओं के एक अध्ययन में पाया गया कि 12 सबसे लगातार सांख्यिकीय परीक्षण हैं: विचरण का विश्लेषण (एनोवा), ची-स्क्वायर टेस्ट, छात्र का टी परीक्षण, रैखिक प्रतिगमन, पियर्सन के सहसंबंध गुणांक, मान-व्हिटनी यू टेस्ट, क्रुस्कल-वालिसटेस्ट, शैनन की विविधता सूचकांक, तुकी की रेंज टेस्ट | तुकी का परीक्षण, क्लस्टर विश्लेषण, स्पीयरमैन रैंक सहसंबंध परीक्षण और प्रिंसिपल घटक विश्लेषण।

एक विशिष्ट सांख्यिकी पाठ्यक्रम में वर्णनात्मक आँकड़े, संभावना, द्विपद और सामान्य वितरण, परिकल्पना और आत्मविश्वास अंतराल, रैखिक प्रतिगमन और सहसंबंध का परीक्षण शामिल है। ref> स्नातक छात्रों के लिए आधुनिक मौलिक सांख्यिकीय पाठ्यक्रम सही परीक्षण चयन, परिणाम व्याख्या और मुफ्त सांख्यिकी सॉफ्टवेयर के उपयोग पर ध्यान केंद्रित करते हैं।

सांख्यिकीय कंप्यूटिंग


20 वीं शताब्दी के उत्तरार्ध से शुरू होने वाली कंप्यूटिंग शक्ति में तेजी से और निरंतर वृद्धि का सांख्यिकीय विज्ञान के अभ्यास पर पर्याप्त प्रभाव पड़ा है। प्रारंभिक सांख्यिकीय मॉडल लगभग हमेशा रैखिक मॉडल के वर्ग से थे, लेकिन शक्तिशाली कंप्यूटर, उपयुक्त संख्यात्मक एल्गोरिदम के साथ मिलकर, नॉनलाइनियर मॉडल (जैसे तंत्रिका नेटवर्क) के साथ -साथ नए प्रकार के निर्माण जैसे कि सामान्यीकृत रैखिक मॉडल में वृद्धि हुई है और बहुस्तरीय मॉडल।

बढ़ी हुई कंप्यूटिंग शक्ति ने भी पुनरुत्थान के आधार पर कम्प्यूटेशनल रूप से गहन तरीकों की बढ़ती लोकप्रियता का नेतृत्व किया है, जैसे कि क्रमपरिवर्तन परीक्षण और बूटस्ट्रैप, जबकि गिब्स सैंपलिंग जैसी तकनीकों ने बायेसियन मॉडल के उपयोग को अधिक संभव बना दिया है। कंप्यूटर क्रांति में प्रयोगात्मक और अनुभवजन्य आंकड़ों पर एक नए जोर के साथ आंकड़ों के भविष्य के लिए निहितार्थ हैं। सामान्य और विशेष उद्देश्य सांख्यिकीय सॉफ्टवेयर दोनों की बड़ी संख्या अब उपलब्ध हैं। जटिल सांख्यिकीय गणना में सक्षम उपलब्ध सॉफ़्टवेयर के उदाहरणों में गणित, एसएएस, एसपीएसएस और आर जैसे कार्यक्रम शामिल हैं।

व्यावसायिक सांख्यिकी
व्यवसाय में, सांख्यिकी एक व्यापक रूप से उपयोग किया जाने वाला प्रबंधन- और निर्णय समर्थन उपकरण है।यह विशेष रूप से वित्तीय प्रबंधन, विपणन प्रबंधन और उत्पादन, सेवाओं और संचालन प्रबंधन में लागू होता है। सांख्यिकी का उपयोग प्रबंधन लेखांकन और ऑडिटिंग में भी किया जाता है।प्रबंधन विज्ञान का अनुशासन व्यवसाय में सांख्यिकी और अन्य गणित के उपयोग को औपचारिक रूप देता है।(अर्थमिति आर्थिक संबंधों को अनुभवजन्य सामग्री देने के लिए आर्थिक आंकड़ों के लिए सांख्यिकीय तरीकों का अनुप्रयोग है।)

एक विशिष्ट व्यावसायिक सांख्यिकी पाठ्यक्रम व्यवसाय की बड़ी कंपनियों और कवर के लिए अभिप्रेत है वर्णनात्मक आँकड़े (संग्रह, विवरण, विश्लेषण और डेटा का सारांश), संभावना (आमतौर पर द्विपद और सामान्य वितरण), परिकल्पना और आत्मविश्वास अंतराल का परीक्षण, रैखिक प्रतिगमन, और सहसंबंध;(फॉलो-ऑन) पाठ्यक्रमों में पूर्वानुमान, समय श्रृंखला, निर्णय पेड़, कई रैखिक प्रतिगमन, और व्यापार विश्लेषण से अन्य विषय अधिक आम तौर पर शामिल हो सकते हैं।यह सभी देखें ।पेशेवर प्रमाणन कार्यक्रम, जैसे कि सीएफए, में अक्सर आंकड़ों में विषय शामिल होते हैं।

गणित या कला के लिए लागू आंकड़े
परंपरागत रूप से, आंकड़े एक अर्ध-मानक कार्यप्रणाली का उपयोग करके आरेखण निष्कर्षों से संबंधित थे जो अधिकांश विज्ञानों में सीखने की आवश्यकता थी। यह परंपरा गैर-इन्फेक्शनल संदर्भों में आंकड़ों के उपयोग के साथ बदल गई है।एक बार एक शुष्क विषय माना जाता था, जिसे कई क्षेत्रों में डिग्री-आवश्यकता के रूप में लिया गया था, अब उत्साह से देखा जाता है। शुरू में कुछ गणितीय शुद्धतावादियों द्वारा प्राप्त, इसे अब कुछ क्षेत्रों में आवश्यक कार्यप्रणाली माना जाता है।
 * संख्या सिद्धांत में, एक वितरण फ़ंक्शन द्वारा उत्पन्न डेटा के बिखराव के भूखंडों को अंतर्निहित पैटर्न को प्रकट करने के लिए आंकड़ों में उपयोग किए जाने वाले परिचित उपकरणों के साथ बदल दिया जा सकता है, जो तब परिकल्पना को जन्म दे सकता है।
 * अराजकता सिद्धांत और फ्रैक्टल ज्यामिति के संयोजन के पूर्वानुमान में आंकड़ों के पूर्वानुमान के तरीकों का उपयोग वीडियो कार्यों को बनाने के लिए किया जा सकता है।
 * जैक्सन पोलक की प्रक्रिया कला कलात्मक प्रयोगों पर निर्भर थी, जिससे प्रकृति में अंतर्निहित वितरण को कलात्मक रूप से प्रकट किया गया था। कंप्यूटर के आगमन के साथ, मूविंग वीडियो आर्ट बनाने और विश्लेषण करने के लिए इस तरह के वितरण-चालित प्राकृतिक प्रक्रियाओं को औपचारिक बनाने के लिए सांख्यिकीय विधियों को लागू किया गया था।
 * सांख्यिकी के तरीकों का उपयोग प्रदर्शन कला में प्रमुख रूप से किया जा सकता है, जैसा कि एक मार्कोव प्रक्रिया के आधार पर एक कार्ड ट्रिक में है जो केवल कुछ समय काम करता है, जिसके अवसर को सांख्यिकीय पद्धति का उपयोग करके भविष्यवाणी की जा सकती है।
 * आंकड़ों का उपयोग मुख्य रूप से कला बनाने के लिए किया जा सकता है, जैसा कि इयानिस ज़ेनकिस द्वारा आविष्कार किए गए सांख्यिकीय या स्टोकेस्टिक संगीत में है, जहां संगीत प्रदर्शन-विशिष्ट है।हालांकि इस प्रकार की कलात्मकता हमेशा अपेक्षित रूप से बाहर नहीं आती है, यह उन तरीकों से व्यवहार करती है जो आंकड़ों का उपयोग करके अनुमानित और ट्यून करने योग्य हैं।

विशेष अनुशासन
सांख्यिकीय तकनीकों का उपयोग वैज्ञानिक और सामाजिक अनुसंधान की एक विस्तृत श्रृंखला में किया जाता है, जिनमें शामिल हैं: बायोस्टैटिस्टिक्स, कम्प्यूटेशनल बायोलॉजी, कम्प्यूटेशनल समाजशास्त्र, नेटवर्क जीव विज्ञान, सामाजिक विज्ञान, समाजशास्त्र और सामाजिक अनुसंधान।पूछताछ के कुछ क्षेत्र ने इतने बड़े पैमाने पर आँकड़ों को लागू किया कि उनके पास विशेष शब्दावली है।इन विषयों में शामिल हैं:

• Actuarial science (assesses risk in the insurance and finance industries)

• Applied information economics

• Astrostatistics (statistical evaluation of astronomical data)

• Biostatistics

• Chemometrics (for analysis of data from chemistry)

• Data mining (applying statistics and pattern recognition to discover knowledge from data)

• Data science

• Demography (statistical study of populations)

• Econometrics (statistical analysis of economic data)

• Energy statistics

• Engineering statistics

• Epidemiology (statistical analysis of disease)

• Geography and geographic information systems, specifically in spatial analysis

• Image processing

• Jurimetrics (law)

• Medical statistics

• Political science

• Psychological statistics

• Reliability engineering

• Social statistics

• Statistical mechanics इसके अलावा, विशेष प्रकार के सांख्यिकीय विश्लेषण हैं जिन्होंने अपनी विशेष शब्दावली और कार्यप्रणाली भी विकसित की है: • Bootstrap / jackknife resampling

• Multivariate statistics

• Statistical classification

• Structured data analysis

• Structural equation modelling

• Survey methodology

• Survival analysis

• Statistics in various sports, particularly baseball – known as sabermetrics – and cricket सांख्यिकी व्यवसाय और विनिर्माण में भी एक प्रमुख आधार उपकरण बनाते हैं।इसका उपयोग माप प्रणाली परिवर्तनशीलता, नियंत्रण प्रक्रियाओं (सांख्यिकीय प्रक्रिया नियंत्रण या एसपीसी में), डेटा को सारांशित करने के लिए और डेटा-संचालित निर्णय लेने के लिए किया जाता है।इन भूमिकाओं में, यह एक महत्वपूर्ण उपकरण है, और शायद एकमात्र विश्वसनीय उपकरण है।

यह भी देखें
• Abundance estimation

• Glossary of probability and statistics

• List of academic statistical associations

• List of important publications in statistics

• List of national and international statistical services

• List of statistical packages (software)

• List of statistics articles

• List of university statistical consulting centers

• Notation in probability and statistics

• Statistics education

• World Statistics Day • Foundations of statistics
 * नींव और सांख्यिकी के प्रमुख क्षेत्र

• List of statisticians

• Official statistics

• Multivariate analysis of variance

• :

• :

अग्रिम पठन

 * Lydia Denworth, "A Significant Problem: Standard scientific methods are under fire. Will anything change?", Scientific American, vol. 321, no. 4 (October 2019), pp. 62–67. "The use of p values for nearly a century [since 1925] to determine statistical significance of experimental results has contributed to an illusion of certainty and [to] reproducibility crises in many scientific fields. There is growing determination to reform statistical analysis... Some [researchers] suggest changing statistical methods, whereas others would do away with a threshold for defining "significant" results." (p. 63.)
 * OpenIntro Statistics, 3rd edition by Diez, Barr, and Cetinkaya-Rundel
 * Stephen Jones, 2010. Statistics in Psychology: Explanations without Equations. Palgrave Macmillan. ISBN 9781137282392.
 * OpenIntro Statistics, 3rd edition by Diez, Barr, and Cetinkaya-Rundel
 * Stephen Jones, 2010. Statistics in Psychology: Explanations without Equations. Palgrave Macmillan. ISBN 9781137282392.

बाहरी संबंध

 * (Electronic Version): TIBCO Software Inc. (2020). Data Science Textbook.
 * Online Statistics Education: An Interactive Multimedia Course of Study. Developed by Rice University (Lead Developer), University of Houston Clear Lake, Tufts University, and National Science Foundation.
 * UCLA Statistical Computing Resources
 * Philosophy of Statistics from the Stanford Encyclopedia of Philosophy

<!

]